Оценить статью
(Нет голосов)
 (0 голосов)
Поделиться статьей
Александр Канапин

К.б.н., ведущий специалист по компьютерной геномике, кафедра онкологии Оксфордского университета, представитель России в консорциуме ELIXIR

Рабочая тетрадь "Россия и вызовы цифровой среды" представляет интересный взгляд на проблему т.н. "Больших Данных" и их связь с цифровым суверенитетом страны. В частности, в работе рассматривается такой интенсивно развивающийся аспект Больших Данных, как биологические и медицинские данные. Авторы затрагивают такие важные проблемы, как возможное создание целевых, направленных средств поражения, которые способны распознать и нанести ущерб только определенным группам организмов, включая человека. Бурный рост объема данных в биологии и медицине, особенно персональных геномных данных может способствовать реализации такого сценария, но в реальности мы пока еще далеки от биоинформатического апокалипсиса.

Отзыв на рабочую тетрадь "Россия и вызовы цифровой среды"

Рабочая тетрадь "Россия и вызовы цифровой среды" представляет интересный взгляд на проблему т.н. "Больших Данных" (англ. Big Data) и их связь с цифровым суверенитетом страны. В частности, в работе рассматривается такой интенсивно развивающийся аспект Больших Данных, как биологические и медицинские данные. Авторы затрагивают такие важные проблемы, как возможное создание целевых, направленных средств поражения, которые способны распознать и нанести ущерб только определенным группам организмов, включая человека. Бурный рост объема данных в биологии и медицине, особенно персональных геномных данных может способствовать реализации такого сценария, но в реальности мы пока еще далеки от биоинформатического апокалипсиса.

По меткому замечанию нобелевского лауреата, биолога, Сидни Бреннера (Sydney Brenner), биоинформатика – это бухгалтерское дело в биологии (Лекция на симпозиуме в честь сорокалетия Journal of Molecular Biology: JMB 40th Anniversary Symposium. Cambridge, UK. 27th October 1999). Другой известный ученый, Юан Берни (Ewan Birney) сравнил биоинформатиков с водопроводчиками (Nuffield Department of Medicine Seminar, Oxford, 5 October 2012 Dr Ewan Birney: ENCODE: our first glimpse of how the rest of the genome works). В таком сравнении нет ничего обидного, потому что как функционирование современной городской среды немыслимо без бесперебойно работающей водопроводной сети, так и планирование обычных экспериментов в биологии и медицине сегодня нельзя себе представить без информации, предоставляемой биоинформатическими ресурсами: базами данных, средствами анализа и им подобным.

Биоинформатика еще находится в процессе формирования, и поэтому уместно будет различать в ней два основных направления. Первое, часто называемое "сервисной биоинформатикой", можно отнести скорее к области инженерной деятельности, чем к науке.

Как относительно молодая наука, биоинформатика еще находится в процессе формирования, и поэтому уместно будет различать в ней два основных направления. Первое, часто называемое "сервисной биоинформатикой", можно отнести скорее к области инженерной деятельности, чем к науке. Создание и поддержка баз данных, разработка алгоритмов их обновления, интеграции гетерогенных ресурсов между собой – вот то, чем занимается сервисная часть. Когда биолог обращается к базе данных (большинство из них, включая такие жизненно важные ресурсы, как последовательности и структуры генов и белков, бесплатные) он прежде всего видит результат работы сервисных биоинформатиков. Три центра мирового масштаба практически полностью обеспечивают мировое научное сообщество данными свободного доступа для биологии и медицины: Национальный центр биологической информации (NCBI, Бетезда, США), Европейский Институт Биоинформатики (EBI, Хинкстон, Великобритания) и Японский Банк Данных ДНК (DDBJ, Токио, Япония). Эти три центра объединены в консорциум и постоянно синхронизируют свои главные банки данных.

Александр Канапин

Очень важный компонент деятельности центров заключается в работе кураторов баз данных. Попытки формализовать обработку биологических знаний и передать этот процесс компьютерам делались неоднократно, но пока соперничать с человеком существующие алгоритмы не могут. Обычно кураторы – это биологи высокой квалификации, которые наполняют базы данных биологической информацией. Например, если речь идет о новом белке, куратор прочтет статьи, описывающие его функции, внесет в базу данных ссылки на них, проверит уже имеющуюся в базе данных информацию, ссылки на другие информационные ресурсы. Таким образом, пользователи могут быть уверены в том, что они получают достоверную и надежную информацию.

Другой раздел биоинформатики, или, как его иногда называют, компьютерная биология занимается собственно анализом данных, разработкой алгоритмов и методов. Это классическая, "академическая" деятельность, как и любая другая наука она далека от практического применения своих открытий.

Взгляд на проблему Больших Данных с точки зрения этих двух разделов биоинформатики не дает пока оснований полагать, что в ближайшем (3-5 лет) будущем возможно развитие сценариев, описанных в рабочей тетради.

В строгом смысле упомянутые базы данных пока в большинстве не относятся к собственно Большим Данным. Если, например, рассматривать геном человека, то данные о генах обезличены, они основаны на некой усредненной последовательности генома, опубликованной и обновляемой консорциумом по его анализу. То же самое касается информации о белках, их структурах, регуляторных путях, биохимических реакциях и другой информации о живых системах.

Другой раздел биоинформатики, или, как его иногда называют, компьютерная биология занимается собственно анализом данных, разработкой алгоритмов и методов.

Собственно эпоха Больших Данных пришла в биоинформатику, когда стоимость прочтения геномов отдельных организмов (включая человека) резко снизилась. Таким образом, когда сейчас речь заходит о Больших Данных в биологии и медицине, прежде всего под этим понимаются данные о геномах и сопутствующая им информация (данные медицинских анализов и т.д.). См, например анонс планирующегося в Оксфорде Института Больших Данных (Big Data Institute, BDI).

С точки зрения сервисной биоинформатики вопрос Больших Биологических Данных находится еще в стадии разрешения. В частности, их сбором занимаются в основном медицинские учреждения, которые помимо геномной информации собирают соответствующие клинические данные. Существуют государственные программы такого рода, например инициатива "Genomics England" в Великобритании, созданная для сбора и анализа 100 тысяч геномов пациентов.

Данные такого рода строго обезличены и кроме лечащих врачей, непосредственно работающих с пациентами, доступ к полной информации невозможен ни для кого. Известные частные инициативы, такие, как проект 23andMe, используют упрощенные методы анализа генома, они не применяют полное секвенирование и лишь отслеживают отдельные, наиболее известные генетические маркеры.

Эпоха Больших Данных пришла в биоинформатику, когда стоимость прочтения геномов отдельных организмов (включая человека) резко снизилась.

Если говорить о научной стороне дела, то здесь большинство исследований пока посвящено анализу различий. Иными словами, сравнивая между собой геномы разных организмов мы пытаемся понять, чем они отличаются друг от друга и таким образом найти значимые, достоверные маркеры, которые можно использовать для диагностики заболеваний, определения этнических групп, родства и так далее. В качестве диагностического инструмента большие данные зарекомендовали себя пока с лучшей стороны и сейчас именно эта область исследований развивается наиболее активно. Рассматривая практическое использование результатов анализа, модный в последние 2-3 годa термин "персональная медицина", то здесь пока прогресс не столь очевиден. Основная проблема заключается в сложности организма как системы и вытекающей из этого невозможности найти простые решения на уровне создания индивидуальных лекарств. Подавляющее большинство болезней – это не следствие поломки одного гена, а сложные процессы, в которых принимают участие сотни компонентов. Таким образом, "персональная медицина" на данном этапе ограничивается лишь индивидуальным подбором лекарств, а не их разработкой. И существующий тренд постепенной замены термина “personalmedicine” на “precisionmedicine” (точная медицина) в западных публикациях говорит о переносе акцента с разработки методов лечения отдельных людей на популяции, этнические группы.

Другой важный аспект заключается в международном сотрудничестве в области биоинформатики не только как науки и сервиса, но как государственных программ. Созданный в 2006 году европейский консорциум ELIXIR призван координировать межгосударственные усилия в области биологических и медицинских данных, включая разработку стандартов, безопасности данных, протоколов обмена данными, подготовки кадров. Однако и здесь вопрос угрозы биобезопасности как следствие неконтролируемого распространения биологических Больших Данных пока не ставится.

В заключение замечу, что угроза, исходящая от биологических Больших Данных, мало чем отличается от уже знакомой человечеству угрозы биотерроризма с применением инфекционных агентов, и защита биологического цифрового суверенитета –¬важная задача, требующая решения. Однако сложности практической реализации масштабного сценария "биоинформатического апокалипсиса" пока позволяют смотреть в будущее с осторожным оптимизмом.

Оценить статью
(Нет голосов)
 (0 голосов)
Поделиться статьей

Прошедший опрос

  1. Какие угрозы для окружающей среды, на ваш взгляд, являются наиболее важными для России сегодня? Отметьте не более трех пунктов
    Увеличение количества мусора  
     228 (66.67%)
    Вырубка лесов  
     214 (62.57%)
    Загрязнение воды  
     186 (54.39%)
    Загрязнение воздуха  
     153 (44.74%)
    Проблема захоронения ядерных отходов  
     106 (30.99%)
    Истощение полезных ископаемых  
     90 (26.32%)
    Глобальное потепление  
     83 (24.27%)
    Сокращение биоразнообразия  
     77 (22.51%)
    Звуковое загрязнение  
     25 (7.31%)
Бизнесу
Исследователям
Учащимся