Базы данных по геномике человечества растут во много раз быстрее интернета
Connect with us

Информатизация

Базы данных по геномике человечества растут во много раз быстрее интернета

Высокая скорость развития персонифицированной медицины, составляющей частью которой является сбор внутриклеточной наследственной информации пациентов, привели к взрывному увеличению размеров базы данных по геномике человечества. Она растет со скоростью, которая превышает все возможных потоки накопления данных информационными системами.

Ежегодный размер поступления данных по астрономии — 1 эксабайт (1 млн терабайт), таков же примерный объем годового трафика электронной почты на планете. Количество информации, ежегодно выставляемой на YouTube — до 2 эксабайтов в год, а ежегодный трафик всего интернета к концу этого года превзойдет 1 зетабайт (1000 экабайтов или 1 млрд терабайт). При этом объем накопления данных по геномике — несколько десятков зетабайт в год. Такую информацию привел директор по науке и инновациям R&D центра корпорации EMC Леонид Левкович-Маслюк, на встрече с журналистами посвященной современным трендам в индустрии биоИТ.

Основная цель накопления этих данных — создание глобальной базы всех возможных мутаций ДНК, РНК и белка при определенных заболеваниях (как правило онкологической природы), с которыми будет сравниваться результат секвенирования генома пациента. Это позволит путем сравнительного анализа быстро и точно выявлять конкретную патологию.

Однако обращение к таким базам данных предусматривает обработку сотен гигабайт информации, причем в будущем больница должна обрабатывать тысячи таких запросов. В связи с этим, необходимо решить две проблемы — создать единый протокол шифрования потоков информации и свести время поиска нужных данных к нескольким секундам.

По словам ведущего разработчика R&D Центра корпорации EMC Анрея Запария, в настоящее время существует несколько центров, занимающихся накоплением клеточных данных человека. В частности, крупнейшее хранилище данных The Cancer Genome atlas сдержит несколько сотен тысяч результатов секвенирования генома общим размером примерно 15 тыс. террабайт. Однако обособленное развитие центров привело к отсутствию единого протокола обмена данными и схемы построения запросов, что стало серьезным препятствием в развитии персонализированной медицины. Кроме того, до сих отсутствует единый формат документов для трансграничной передачи и организации публичного доступа к базам в автоматическом режиме. Наконец, до их пор не выработаны рекомендации и регламенты работы с клиническими данными.

Обычные интернет-протоколы не обеспечивают приемлемой скорости передачи информации по геномике, продолжил Запарий. Например, эксперимент по внедрению данных по одному из генов, продуцирующих рак груди, в Google big Query по технологии Google, показал, что простое копирование информации занимает более двух месяцев, что непозволитительно долго.

Приложения для работы с массивами данных, которые разрабатывались в течение предыдущих 10-15 лет, морально устарели, а новая техника до недавнего времени слабо проникала на рынок. Программные библиотеки для работы с данными, работали в узком коридоре конкретных заданий. Кроме того, сами базы не были приспособлены для работы ни с объемами, ни со структурой существующих данных, что приводило к многочасовым поискам нужной информации.

Для решения проблемы быстрого поиска был создан глобальный альянс. Его задачей является разработка механизма работы с базами данных по геномике в применении их в клинике, создание единого протокола доступа к данным, общей схемы формирования запроса в базе, общего формата документов, предоставляющих право на публикацию в базах геномных данных. На сегодняшний день альянс уже практически создал набор рекомендаций по использованию приложений и разработал систему, в автоматическом режиме выдающую по результату секвенирования аннотированные варианты отличия от эталонных геномов.

Кроме того, в работу запущен проект Beacon, объединивший ряд центров, в рамках которого компания Google создала систему поиска геномов внутри участников, многие из которых имеют собственные базы данных.

Система Match Maker Exchange, объединившая трех основных хранителей данных и ряд мелких баз, позволяет врачу, при отсутствии опыта по постановке диагноза, обратиться в систему федеративного поиска, запросив информацию о лечении болезни с вариациями генома своего пациента. Группа Containers and Workflow создана для обработки типичных задач, с возможностью подключения к любому центру.

Группа Genotype to Phenotype, в которой участвовали российские технологи, сформировала интерфейс доступа к базам, хранящим информацию о влиянии генотипа на фенотип в случаях новообразований. В рамках этой группы специалисты из России разработали систему сохранения ассоциативных связей между вариациями, облегчающую поиск, и определили соответствие проявлений фенотипа пациента и воздействия параметра среды (например, лекарственных препаратов). «Мы научились читать массивы данных, теперь надо научиться их находить», — пояснил Запарий.

Кроме участия в международных проектах Российская Федерация готовит собственные стартапы. В частности, осуществлена реализация сайта «Российский геном», драйвером которого является Санкт-Петербургский государственный университет. Разработан проект создания геномного банка данных в Технологической долине МГУ. И хотя в нашей стране пока нет мощной информационной базы, отдельные компании уже полноценно используют геномику для оказания персонифицированной медицинской помощи в России.

Прочем, скорость развития информационных технологий настолько велика, что уже через два –три года нужно ожидать качественного скачка, который в корне изменит работу с базами данных и сделает персонифицированную медицину одним из самых эффективных инструментов лечения заболеваний, связанных с изменением наследственной информации человека.

Click to comment

You must be logged in to post a comment Login

Leave a Reply

еще in Информатизация