Модель может предсказать изменения в 11 биологических активностях в 1 миллионе букв ДНК

Новая модель нейросети с глубоким обучением под названием AlphaGenome открывает книгу с инструкциями по ДНК и облегчает ее чтение. Эта модель может помочь ученым лучше расшифровать сюжет книги по генетике и понять, как опечатки меняют сюжет.
AlphaGenome, созданный Google DeepMind, является последней в постоянно совершенствующейся линейке моделей ИИ, созданных для анализа обширных участков ДНК. Предыдущая модель, получившая название Borzoi, могла предсказать молекулярные ориентиры на участках ДНК длиной в 500 000 оснований. AlphaGenome может анализировать 1 миллион строительных блоков ДНК одновременно, сообщают исследователи 28 января в журнале Nature. Эта модель может иметь практическое значение для диагностики редких генетических заболеваний, выявления мутаций, вызывающих рак, разработки синтетических последовательностей ДНК или терапевтических РНК и лучшего понимания основ биологии.
“AlphaGenome — это не просто более масштабная модель с точки зрения длины контекста, но и настоящий прорыв в своей общей полезности”, — говорит Аншул Кундадже, специалист по вычислительной биологии из Стэнфордского университета, который разрабатывает модели искусственного интеллекта для геномики.
Например, генетическое изменение может не повлиять на близлежащие гены, но может изменить активность генов, расположенных на большом расстоянии. Поскольку AlphaGenome исследует более длинные участки ДНК, он с большей вероятностью обнаружит такие связи на большом расстоянии.
Но AlphaGenome не идеален. Неопубликованные данные из лаборатории Кундадже указывают на то, что модель не может предсказать, как изменяется активность генов у отдельных людей. На данный момент модель является инструментом для изучения фундаментальной биологии, а не тем, что врачи могли бы использовать для диагностики или лечения пациентов.
По словам Кундадже, AlphaGenome “исчерпал” возможности моделей такого типа. Он предсказывает, что следующий большой скачок произойдет благодаря тому, что ученые создадут новые типы данных для анализа модели или ее потомков.
По словам Питера Ку, специалиста по вычислительной биологии из лаборатории Колд-Спринг-Харбор в Нью-Йорке, AlphaGenome может точно определять биологически важные точки с разрешением до одной пары оснований. Это намного более высокое разрешение, чем у Borzoi, который отмечал биологически важные точки в ячейках с 32 парами оснований.
Это непростая задача, учитывая, что в основе модели лежит геном человека длиной в 3 миллиарда базовых величин, который часто называют учебником по генетике. На самом деле книга представляет собой многотомную всплывающую энциклопедию, в которой можно выбирать приключения самостоятельно.
Рассказы «Гены», входящие в книгу, изложены короткими фразами, которые можно переставлять, сокращать или пропускать. Между фрагментами рассказа есть отрывки, которые могут содержать инструкции о том, как читать совершенно другую историю. Страницы и главы причудливо переплетены друг с другом, так что, если потянуть за вкладку в одном отрывке, что-то всплывет в других главах.
Большая часть книги наполнена тем, что многие люди считают бессмыслицей, но часто является важным материалом для чтения. Исследователи каталогизировали ошеломляющее количество знаков препинания, складок, похожих на оригами, синтаксических перестановок, каракулей на полях и других типов биологической грамматики, которые клетки используют для придания смысла книге.
Задача AlphaGenome состоит в том, чтобы взять последовательность букв ДНК и предсказать, как точки на графике, знаки препинания и другие вариации влияют на 11 различных биологических процессов, включая сплайсинг РНК, уровни активности генов и определенные взаимодействия белок-ДНК. Модель учитывает 5930 точек данных, полученных в ходе исследований ДНК человека и 1128 — ДНК мыши. С помощью этих данных ИИ может предсказать, как изменение одной буквы или основания в строке из миллиона оснований изменит историю.
Исследователи сообщают, что специализированные вычислительные модели, которые предсказывают подмножества этих биологических функций, используются уже много лет, но AlphaGenome превосходит их по большинству показателей и особенно хорошо выявляет некоторые особенности в различных типах клеток. Например, AlphaGenome выявлял изменения активности генов в определенных типах клеток на 14,7% лучше, чем Borzoi2.
“Мы считаем, что успешное выполнение такого количества различных геномных задач одновременно свидетельствует о том, что модель получила мощное общее представление о последовательностях ДНК и сложных процессах, которые эти последовательности кодируют”, — сказала Наташа Латышева из Google DeepMind 27 января во время брифинга для прессы.
Этот инструмент может облегчить задачу исследователям, которые пытаются понять, как работает геном, говорит Джудит Гарсия Гонсалес, специалист по генетике человека из медицинской школы Ичан на горе Синай в Нью-Йорке. До появления AlphaGenome исследователю “может потребоваться использовать три разных инструмента с их собственными оговорками и изучить, как они работают, для прогнозирования, скажем, 20 различных функциональных последствий для генома”, — говорит она. Теперь AlphaGenome объединяет все это в одном инструменте.
AlphaGenome не является полностью новым изобретением. Он основан на предыдущих моделях, но использует некоторые аспекты этих моделей разумным образом. “В AlphaGenome нет ни одной инновации, которую можно было бы назвать важной. На самом деле это система, состоящая из множества хитростей и инженерных разработок”, — говорит Ку.
AlphaGenome использовала один прием, называемый ансамблевой дистилляцией, с которым экспериментировала лаборатория Ку. Эта стратегия предусматривает предварительную обработку нескольких копий модели, каждая из которых подвергается компьютерной мутации ДНК. Эти модели служат преподавателями для модели одного студента, которая усредняет их результаты.
Это похоже на то, как если бы 60 профессоров истории рассказали о важном событии, говорит Ку. “Если принять во внимание консенсус в отношении того, с чем согласны все историки, что совпадает в их сюжетных линиях, то это, вероятно, то, что на самом деле может быть правдой”.
Консенсус, — говорит он, — как правило, более надежен, чем доверие к какой-либо отдельной модели”.
