Рабочая тетрадь "Россия и вызовы цифровой среды" представляет интересный взгляд на проблему т.н. "Больших Данных" и их связь с цифровым суверенитетом страны. В частности, в работе рассматривается такой интенсивно развивающийся аспект Больших Данных, как биологические и медицинские данные. Авторы затрагивают такие важные проблемы, как возможное создание целевых, направленных средств поражения, которые способны распознать и нанести ущерб только определенным группам организмов, включая человека. Бурный рост объема данных в биологии и медицине, особенно персональных геномных данных может способствовать реализации такого сценария, но в реальности мы пока еще далеки от биоинформатического апокалипсиса.
Отзыв на рабочую тетрадь "Россия и вызовы цифровой среды"
Рабочая тетрадь "Россия и вызовы цифровой среды" представляет интересный взгляд на проблему т.н. "Больших Данных" (англ. Big Data) и их связь с цифровым суверенитетом страны. В частности, в работе рассматривается такой интенсивно развивающийся аспект Больших Данных, как биологические и медицинские данные. Авторы затрагивают такие важные проблемы, как возможное создание целевых, направленных средств поражения, которые способны распознать и нанести ущерб только определенным группам организмов, включая человека. Бурный рост объема данных в биологии и медицине, особенно персональных геномных данных может способствовать реализации такого сценария, но в реальности мы пока еще далеки от биоинформатического апокалипсиса.
По меткому замечанию нобелевского лауреата, биолога, Сидни Бреннера (Sydney Brenner), биоинформатика – это бухгалтерское дело в биологии (Лекция на симпозиуме в честь сорокалетия Journal of Molecular Biology: JMB 40th Anniversary Symposium. Cambridge, UK. 27th October 1999). Другой известный ученый, Юан Берни (Ewan Birney) сравнил биоинформатиков с водопроводчиками (Nuffield Department of Medicine Seminar, Oxford, 5 October 2012 Dr Ewan Birney: ENCODE: our first glimpse of how the rest of the genome works). В таком сравнении нет ничего обидного, потому что как функционирование современной городской среды немыслимо без бесперебойно работающей водопроводной сети, так и планирование обычных экспериментов в биологии и медицине сегодня нельзя себе представить без информации, предоставляемой биоинформатическими ресурсами: базами данных, средствами анализа и им подобным.
Как относительно молодая наука, биоинформатика еще находится в процессе формирования, и поэтому уместно будет различать в ней два основных направления. Первое, часто называемое "сервисной биоинформатикой", можно отнести скорее к области инженерной деятельности, чем к науке. Создание и поддержка баз данных, разработка алгоритмов их обновления, интеграции гетерогенных ресурсов между собой – вот то, чем занимается сервисная часть. Когда биолог обращается к базе данных (большинство из них, включая такие жизненно важные ресурсы, как последовательности и структуры генов и белков, бесплатные) он прежде всего видит результат работы сервисных биоинформатиков. Три центра мирового масштаба практически полностью обеспечивают мировое научное сообщество данными свободного доступа для биологии и медицины: Национальный центр биологической информации (NCBI, Бетезда, США), Европейский Институт Биоинформатики (EBI, Хинкстон, Великобритания) и Японский Банк Данных ДНК (DDBJ, Токио, Япония). Эти три центра объединены в консорциум и постоянно синхронизируют свои главные банки данных.
Очень важный компонент деятельности центров заключается в работе кураторов баз данных. Попытки формализовать обработку биологических знаний и передать этот процесс компьютерам делались неоднократно, но пока соперничать с человеком существующие алгоритмы не могут. Обычно кураторы – это биологи высокой квалификации, которые наполняют базы данных биологической информацией. Например, если речь идет о новом белке, куратор прочтет статьи, описывающие его функции, внесет в базу данных ссылки на них, проверит уже имеющуюся в базе данных информацию, ссылки на другие информационные ресурсы. Таким образом, пользователи могут быть уверены в том, что они получают достоверную и надежную информацию.
Другой раздел биоинформатики, или, как его иногда называют, компьютерная биология занимается собственно анализом данных, разработкой алгоритмов и методов. Это классическая, "академическая" деятельность, как и любая другая наука она далека от практического применения своих открытий.
Взгляд на проблему Больших Данных с точки зрения этих двух разделов биоинформатики не дает пока оснований полагать, что в ближайшем (3-5 лет) будущем возможно развитие сценариев, описанных в рабочей тетради.
В строгом смысле упомянутые базы данных пока в большинстве не относятся к собственно Большим Данным. Если, например, рассматривать геном человека, то данные о генах обезличены, они основаны на некой усредненной последовательности генома, опубликованной и обновляемой консорциумом по его анализу. То же самое касается информации о белках, их структурах, регуляторных путях, биохимических реакциях и другой информации о живых системах.
Собственно эпоха Больших Данных пришла в биоинформатику, когда стоимость прочтения геномов отдельных организмов (включая человека) резко снизилась. Таким образом, когда сейчас речь заходит о Больших Данных в биологии и медицине, прежде всего под этим понимаются данные о геномах и сопутствующая им информация (данные медицинских анализов и т.д.). См, например анонс планирующегося в Оксфорде Института Больших Данных (Big Data Institute, BDI).
С точки зрения сервисной биоинформатики вопрос Больших Биологических Данных находится еще в стадии разрешения. В частности, их сбором занимаются в основном медицинские учреждения, которые помимо геномной информации собирают соответствующие клинические данные. Существуют государственные программы такого рода, например инициатива "Genomics England" в Великобритании, созданная для сбора и анализа 100 тысяч геномов пациентов.
Данные такого рода строго обезличены и кроме лечащих врачей, непосредственно работающих с пациентами, доступ к полной информации невозможен ни для кого. Известные частные инициативы, такие, как проект 23andMe, используют упрощенные методы анализа генома, они не применяют полное секвенирование и лишь отслеживают отдельные, наиболее известные генетические маркеры.
Если говорить о научной стороне дела, то здесь большинство исследований пока посвящено анализу различий. Иными словами, сравнивая между собой геномы разных организмов мы пытаемся понять, чем они отличаются друг от друга и таким образом найти значимые, достоверные маркеры, которые можно использовать для диагностики заболеваний, определения этнических групп, родства и так далее. В качестве диагностического инструмента большие данные зарекомендовали себя пока с лучшей стороны и сейчас именно эта область исследований развивается наиболее активно. Рассматривая практическое использование результатов анализа, модный в последние 2-3 годa термин "персональная медицина", то здесь пока прогресс не столь очевиден. Основная проблема заключается в сложности организма как системы и вытекающей из этого невозможности найти простые решения на уровне создания индивидуальных лекарств. Подавляющее большинство болезней – это не следствие поломки одного гена, а сложные процессы, в которых принимают участие сотни компонентов. Таким образом, "персональная медицина" на данном этапе ограничивается лишь индивидуальным подбором лекарств, а не их разработкой. И существующий тренд постепенной замены термина “personalmedicine” на “precisionmedicine” (точная медицина) в западных публикациях говорит о переносе акцента с разработки методов лечения отдельных людей на популяции, этнические группы.
Другой важный аспект заключается в международном сотрудничестве в области биоинформатики не только как науки и сервиса, но как государственных программ. Созданный в 2006 году европейский консорциум ELIXIR призван координировать межгосударственные усилия в области биологических и медицинских данных, включая разработку стандартов, безопасности данных, протоколов обмена данными, подготовки кадров. Однако и здесь вопрос угрозы биобезопасности как следствие неконтролируемого распространения биологических Больших Данных пока не ставится.
В заключение замечу, что угроза, исходящая от биологических Больших Данных, мало чем отличается от уже знакомой человечеству угрозы биотерроризма с применением инфекционных агентов, и защита биологического цифрового суверенитета –¬важная задача, требующая решения. Однако сложности практической реализации масштабного сценария "биоинформатического апокалипсиса" пока позволяют смотреть в будущее с осторожным оптимизмом.