Бивши учени от Meta дебютират с гигантски AI протеинов модел

Моделът на протеиновия език на EvolutionaryScale е сред най-големите AI модели в биологията. Той доведе до създаването на нови флуоресцентни протеини и спечели големи инвестиции.

Модел на изкуствен интелект, който говори на езика на протеините е един от най-големите досега разработени за биология. Той е използван за създаване на нови флуоресцентни молекули.

Общо 142 милиона щатски долара са вложени в разработване и прилагане на модела към производството на лекарства и други цели. Иновацията, създадена от учени, които преди това са работили в технологичния гигант Meta, е най-новият участник във все по-натоварената област. В нея се прилагат авангардни модели за машинно обучение на език и изображения към биологични данни.

Изцяло нови протеини

Изследователите искат да създадат инструменти, които могат да направят биологията програмируема. AI инструментът на EvolutionaryScale, наречен ESM3, е това, което е известно като протеинов езиков модел. Той беше обучен на повече от 2,7 милиарда протеинови последователности и структури, както и на информация за функциите на тези протеини. Моделът може да се използва за създаване на протеини според спецификациите, предоставени от потребителите, подобно на текст, сътворен от чатботове като ChatGPT.

Учените са работили върху по-ранни повторения на модела ESM в Meta. Миналата година поставиха самостоятелно начало, след като Meta приключи работата си в тази област. Преди това те са използвали модела ESM-2, за да създадат свободно достъпна база данни от 600 милиона прогнозирани протеинови структури. Оттогава други екипи са използвали версии на ESM-1 за проектиране на антитела с подобрена активност срещу патогени, включително SARS-CoV-22. Използвани са и за „анти-CRISPR“ протеини, за да се подобри ефективността на инструментите за редактиране на гени.

Profluent

Тази година друга компания за биологичен изкуствен интелект, Profluent в Бъркли, Калифорния, използва свой собствен модел на протеиновия език. Така са създадени нови протеини за редактиране на гени, вдъхновени от CRISPR. Една от тези молекули е свободно достъпна за употреба.

За да демонстрира най-новия си модел, екипът на Rives се зае да преработи още един биотехнологичен модел. Това е зеленият флуоресцентен протеин (GFP), който абсорбира синя светлина и свети в зелено. Изследователите изолират GFP през 60-те години на миналия век от биолуминесцентната медуза Aequorea victoria. По-късни разработки показаха как GFP може да маркира други протеини, гледани под микроскоп. Това обясни молекулярната основа за неговата флуоресценция и разработи синтетични версии на протеина, които светеха много по-ярко и в различни цветове.

Оттогава изследователите са идентифицирали други флуоресцентни протеини с подобна форма, всички споделящи абсорбираща и излъчваща светлина. Това е своеобразна хромофорна сърцевина, заобиколена от скеле с форма на варел. ESM3 създаде примери за GFP-подобни протеини, които съдържат набор от ключови аминокиселини, открити в хромофора на GFP.

Изследователите са синтезирали 88 от най-обещаващите дизайни и са измерили способността им да флуоресцират. Един дизайн се оказва по-различен от известните флуоресцентни протеини. Той свети слабо, с около 50 пъти по-слабо от естествените форми на GFP. Използвайки последователността на тази молекула като отправна точка, изследователите възложиха на ESM3 да подобри работата. Някои от получените дизайни са толкова ярки, колкото естествените GFP, които все още са значително по-слаби от лабораторно проектираните варианти.

Един от най-ярките протеини, проектирани от ESM3, е наречен esmGFP. Той има структура, наподобяваща тази на естествените флуоресцентни протеини. Въпреки това, неговата аминокиселинна последователност е значително по-различна, съвпадаща с по-малко от 60% от последователността на най-близко свързания флуоресцентен протеин в неговия набор от данни за обучение. Въз основа на естествените нива на мутация, това ниво на разлика в последователността се равнява на над 500 милиона години еволюция.

Това сравнение е безполезен и потенциално подвеждащ начин за описване на продукта на авангарден AI модел. Трудно е да се приеме генерирането на нови протеини от ESM3 чрез итерация през различни последователности като аналог на еволюцията. Все пак перспективата за това какво би било необходимо на природата да генерира нещо подобно е интересна.

Праг на риска

ESM3 е сред първите биологични AI модели, които използват достатъчно изчислителна мощност по време на своето обучение, за да изискват от разработчиците да уведомяват правителството на САЩ и да докладват мерки за намаляване на риска, съгласно президентска изпълнителна заповед от 2023 г.

Могат ли протеините да бъдат превърнати в оръжие?

Версията на ESM3, която засенчва този праг, включва почти 100 милиарда параметъра или променливи, които моделът използва за представяне на връзки между последователностите. Тя не е публично достъпна. За по-малка версия с отворен код определени последователности, като тези от вируси и списък на правителството на САЩ с тревожни патогени и токсини, бяха изключени от обучението. ESM3-open, който учените могат да изтеглят и стартират независимо, не може да бъде подканен да генерира такива протеини.