Най-големият AI биологичен модел пише ДНК при поискване

Мрежа с изкуствен интелект, обучена на огромно количество данни за последователности, е поредната стъпка към проектирането на напълно нови геноми. Според учените това е най-големият модел на изкуствен интелект (AI) за биологията.

Моделът е обучен на 128 000 генома. Te обхващат от хора до едноклетъчни бактерии. Той може да напише цели хромозоми и малки геноми от нулата. Може също така да осмисли съществуващата ДНК, включително трудни за тълкуване генни варианти, които са свързани с различни по вид болести.

Evo 2 е разработен съвместно от изследователи в Arc Institute към Станфордския университет и производителя на чипове NVIDIA. Той е достъпен за учените чрез уеб интерфейси или чрез изтегляне на свободно достъпния софтуерен код.

Разработчиците виждат Evo 2 като платформа, която другите могат да адаптират към собствените си нужди. Учените са впечатлени от модела. Все пак те ще трябва да го тестват, преди да стигнат до твърди заключения.

Протеинови модели

През последните няколко години изследователите разработиха все по-мощни протеинови езикови модели. Такъв е и модела ESM3, който след обучение върху милион протеинови последователности е използван за подпомагане прогнозирането на протеинови структури и на напълно нови протеини, включително генни редактори и флуоресцентни молекули.

За разлика от тези модели, Evo 2 е обучен на геномни данни, които съдържат както кодиращи последователности, които носят инструкции за създаване на протеини, така и некодираща ДНК, която включва последователности. Последните контролират кога, къде и как гените са активни. Първата версия на модела, пуснат миналата година, е обучена върху геномите на 80 000 бактерии и прости организми, наречени прокариоти.

Най-големият биологичен AI модел

Последният модел се основава на 128 000 генома, включително тези на хора и животни, растения и еукариотни организми. Тези геноми обхващат общо 9,3 трилиона ДНК букви. Изчислителната мощност, необходима за поглъщане на тези данни и други функции, прави Evo 2 най-големият биологичен AI модел, пуснат досега.

В сравнение с прокариотите, еукариотите са склонни да имат по-дълги и по-сложни геноми. Гените са направени от разпръснати сегменти от кодиращи и некодиращи региони, а некодиращата регулаторна ДНК може да бъде далеч от гените, които контролира. За да се справи с тази сложност, Evo 2 е създаден така, че да може да научава модели в последователности на ДНК до един милион базови двойки.

Мутации в гените

Учените използват Evo 2, за да предскажат ефектите от мутации в ген, замесен в рака на гърдата, наречен BRCA1. Той се справи почти толкова добре, колкото и най-добрите биологични AI модели при определяне дали промените в кодиращите региони ще причинят заболяване. В бъдеще моделът може да помогне за идентифицирането на трудни за тълкуване промени в геномите на пациентите.

Изследователите също така тестват способността на модела да дешифрира други характеристики на сложни геноми, включително този на вълнестия мамут. Evo 2 представлява значителна стъпка в изучаването на регулаторната граматика на ДНК.

Сподели
Предишна страницаЕдна различна студентска бригади в САЩ – Southwestern Advantage
Следваща страницаТърсач на астероиди
Технологичен журналист от 2012 г. със сериозен опит в отразяването на новини за софтуер, мобилни технологии, мобилни приложения. Има в активите си стотици статии по теми като 3G, 4G, 5G, приложенията за iPhone, Android и други популярни платформи, както и множество други сфери.