Современные методы синтетической биологии всё чаще обращаются к искусственному интеллекту для решения задач проектирования биологических систем. Недавняя работа группы исследователей из США демонстрирует, что геномная языковая модель Evo способна генерировать полностью новые, функциональные нуклеотидные последовательности, не имеющие прямых аналогов в природе. Ключевым инновационным элементом подхода является использование геномного контекста как основы для «семантического проектирования» (метода, при котором функциональная связь генов выводится из их пространственной организации в прокариотических геномах).
Архитектура модели и принципы «геномной семантики»
Модель Evo была обучена на массиве из более чем миллиарда нуклеотидных пар, полученных из геномов бактерий и бактериофагов. В основе подхода лежит наблюдение: в прокариотах функционально связанные гены часто локализованы в оперонах, образуя устойчивые кластеры. Такая организация позволяет рассматривать геном как текст, где «слова» (гены) объединяются в «предложения» (опероны) с определённым функциональным смыслом.
Evo использует этот принцип для генерации последовательностей через механизм автодополнения: при подаче небольшого фрагмента реального геномного контекста модель предсказывает наиболее вероятную функционально связанную последовательность. Анализ показал, что версия Evo 1.5 способна восстанавливать до 85% последовательности гена rpoS (сигма-фактора РНК-полимеразы у Escherichia coli) при наличии лишь 30% исходной информации. При этом энтропийный анализ подтвердил, что модель не просто реплицирует известные данные, а генерирует новые варианты, сохраняя консервативные аминокислотные остатки и варьируя нуклеотидный состав – по аналогии с естественной эволюцией.
Evo использует этот принцип для генерации последовательностей через механизм автодополнения: при подаче небольшого фрагмента реального геномного контекста модель предсказывает наиболее вероятную функционально связанную последовательность. Анализ показал, что версия Evo 1.5 способна восстанавливать до 85% последовательности гена rpoS (сигма-фактора РНК-полимеразы у Escherichia coli) при наличии лишь 30% исходной информации. При этом энтропийный анализ подтвердил, что модель не просто реплицирует известные данные, а генерирует новые варианты, сохраняя консервативные аминокислотные остатки и варьируя нуклеотидный состав – по аналогии с естественной эволюцией.
Функциональная валидация: системы токсин–антитоксин
Для проверки потенциала модели в области de novo проектирования исследователи сосредоточились на системах токсин–антитоксин (Т–АТ), играющих ключевую роль в бактериальной устойчивости к фаговой инфекции.
Сначала была сгенерирована библиотека токсичных белков. Один из вариантов – EvoRelE1 – снизил жизнеспособность клеток E. coli на 70% и продемонстрировал лишь слабую гомологию с природным токсином RelE. На основе его последовательности модель сгенерировала набор антитоксинов, половина из которых показала функциональную активность: лучшие кандидаты полностью восстанавливали рост бактерий. Примечательно, что некоторые синтетические антитоксины эффективно нейтрализовали несколько природных токсинов, несмотря на отсутствие заметной последовательностной схожести.
Аналогичный подход был применён к Т–АТ системам типа III, где антитоксином служит повторяющаяся РНК. В результате был получен функциональный РНК-антитоксин EvoAT6, подавляющий активность токсина ToxN. При этом его последовательность лишь умеренно схожа с естественным антитоксином ToxI. Более того, Evo создала полностью новый токсин EvoT1, не имеющий гомологов в известных базах данных.
Сначала была сгенерирована библиотека токсичных белков. Один из вариантов – EvoRelE1 – снизил жизнеспособность клеток E. coli на 70% и продемонстрировал лишь слабую гомологию с природным токсином RelE. На основе его последовательности модель сгенерировала набор антитоксинов, половина из которых показала функциональную активность: лучшие кандидаты полностью восстанавливали рост бактерий. Примечательно, что некоторые синтетические антитоксины эффективно нейтрализовали несколько природных токсинов, несмотря на отсутствие заметной последовательностной схожести.
Аналогичный подход был применён к Т–АТ системам типа III, где антитоксином служит повторяющаяся РНК. В результате был получен функциональный РНК-антитоксин EvoAT6, подавляющий активность токсина ToxN. При этом его последовательность лишь умеренно схожа с естественным антитоксином ToxI. Более того, Evo создала полностью новый токсин EvoT1, не имеющий гомологов в известных базах данных.
Генерация анти-CRISPR белков
Дальнейшие эксперименты были направлены на проектирование анти-CRISPR (Acr) белков – факторов, используемых фагами для подавления CRISPR-Cas иммунитета бактерий. Используя геномные контексты природных Acr-оперонов в качестве подсказок, Evo сгенерировала обширную библиотеку кандидатных последовательностей.
С помощью предварительной классификации с использованием алгоритма PaCRISPR, основанного на машинном обучении, исследователи отобрали наиболее вероятные Acr-кандидаты. В ходе биологического тестирования 17% из них продемонстрировали способность подавлять активность Cas9. Пять белков обеспечили выраженную защиту как в условиях жидкой культуры, так и при фаговой инфекции. Особенно выделяются EvoAcr1 и EvoAcr2, не имеющие детектируемой гомологии с какими-либо известными белками. Остальные эффективные кандидаты (EvoAcr3–5) относятся к уже известным белковым семействам, но ранее не ассоциировались с анти-CRISPR активностью.
С помощью предварительной классификации с использованием алгоритма PaCRISPR, основанного на машинном обучении, исследователи отобрали наиболее вероятные Acr-кандидаты. В ходе биологического тестирования 17% из них продемонстрировали способность подавлять активность Cas9. Пять белков обеспечили выраженную защиту как в условиях жидкой культуры, так и при фаговой инфекции. Особенно выделяются EvoAcr1 и EvoAcr2, не имеющие детектируемой гомологии с какими-либо известными белками. Остальные эффективные кандидаты (EvoAcr3–5) относятся к уже известным белковым семействам, но ранее не ассоциировались с анти-CRISPR активностью.
SynGenome: база данных синтетических геномов
В завершение проекта авторы создали открытую базу данных SynGenome, содержащую 120 гигабаз синтетической ДНК. Генерация последовательностей осуществлялась на основе более чем 1,7 миллиона природных генов из бактерий и фагов. Анализ показал, что большинство сгенерированных открытых рамок считывания (ORF) по длине, предсказанной вторичной структуре и доменной архитектуре сопоставимы с природными. В то же время около 20% последовательностей формируют кластеры, отсутствующие в естественном «семантическом пространстве» геномов. Это свидетельствует о выходе за пределы известного функционального разнообразия.
Заключение
Представленная работа демонстрирует принципиальную возможность de novo проектирования функциональных генов на основе геномного контекста. Языковая модель Evo способна генерировать биологически активные молекулы – белки и РНК, – не опираясь на прямую гомологию с природными последовательностями. Полученные результаты открывают путь к созданию новых биотехнологических инструментов, расширению функционального пространства генов и ускоренной разработке синтетических биологических систем. Подход «семантического проектирования» может стать основой для следующего поколения методов в области геномной инженерии.