Примерно год назад я писал в данном ТГ-канале, что изучение с помощью нейросетевых подходов текстов на «языке ДНК», т.е. последовательностей нуклеотидов в ДНК различных живых организмов – это очень перспективное новое направление, где можно ожидать реальных научных прорывов.
И приводил в качестве примера нейросетевую ИИ-модель Evo 2, которая была разработана расположенным в Калифорнии Arc Institute. Эта модель была обучена на последовательностях ДНК более чем 100 тысяч видов живых организмов по всему древу жизни – от одноклеточных организмов до человека. Год назад как раз появился соответствующий препринт, а также код программы Evo 2, находящийся в открытом доступе.
Авторы представили эту работу в Nature, и она была опубликована на этой неделе:
https://www.nature.com/articles/s41586-026-10176-5
С момента выхода препринта прошло больше года, и это говорит о серьезной «битве» авторов с рецензентами. В заметке, которая была опубликована в Nature одновременно со статьей:
https://www.nature.com/articles/d41586-026-00681-y
признается, что работа ученых из Arc Institute «это круто, но пока еще не все». Имеется в виду, что не все, что нужно для создания геномов, которые будут работать внутри живых клеток, т.е. «синтетической жизни». Фундаментальная причина этого схожа с недостатками больших языковых моделей (типа ChatGPT). В заметке говорится:
«Компьютерные прогнозы показали, что почти 70% генов в последовательностях выглядят реалистично. Но если хотя бы один важный ген отсутствует или плохо смоделирован, геном не будет работать внутри клетки. Нельзя спроектировать жизнь на 70%. Это можно сделать на компьютере, но она не будет функциональной. Даже если все необходимые гены будут включены, порядок их расположения также может иметь решающее значение. Оценка того, выглядит ли ваш геном правильно и работает ли он правильно, — это две совершенно разные вещи». И все же ученые, которые работают над созданием геномов с нуля, характеризуют модель Evo 2 как «момент ChatGPT» для синтетической геномики.
От себя добавлю, что большие языковые модели обучаются на совокупности произведенных человечеством текстов, подавляющая часть которых не отличается особой мудростью. А последовательности нуклеотидов в ДНК были отобраны в ходе миллиардов лет эволюции, эти тексты будут явно поумнее, и обучение на них должно (по идее) приводить к намного лучшим результатам.
На русском языке я нашел короткое описание полученных результатов здесь:

















































