
Постиженията на DeepMind AI
След като DeepMind AI, групата на Google, най-накрая подробно описа своите биологични усилия, компанията обяснява как е анализирала почти всеки протеин, кодиран в човешкия геном. В допълнение е предсказала вероятната му триизмерна структура. Тя може да бъде критична за разбиране на болестите и проектиране на лечения. В много близко бъдеще всички тези структури ще бъдат пуснати под лиценз Creative Commons чрез Европейския институт по биоинформатика, който вече е домакин на основната база данни за протеините.
В допълнение към работата, компанията ще публикува структурни прогнози за геномите на 20 основни изследователски организма, от дрожди до плодови мухи и мишки. Общо базата данни ще включва приблизително 350 000 протеинови структури.
Какво има в структурата?
Идеята е създаване на система базирана на AI, обучена за структурата на съществуващите протеини, която е определена чрез лабораторни експерименти. Системата използва това обучение плюс информация, която получава от семейства протеини свързани с еволюцията, за да предскаже, как веригата от аминокиселини на протеина се сгъва в триизмерното пространство.
Получената триизмерна структура може да ни даде важна информация за протеина, като например, как той взаимодейства с други протеини и химикали и къде върху него възникват химични реакции. Използвайки структурата, изследователите могат да научат как специфични мутации, като тези, които причиняват генетични заболявания, променят функцията на протеина. Те могат също да я използват за проектиране на химикали, които взаимодействат с протеина и да променят неговата функция. Това е довело до терапии за различни видове рак и ХИВ.
Обикновено тези структури се определят чрез изолиране на протеина, подготовката му за изобразяване и бомбардирането му с електрони. Тези техники са трудни, отнемат много време и често се провалят. Необходими са десетилетия лабораторна работа, за да се предостави структурна информация само за 17% от пълния набор човешки протеини.
Това обяснява защо изследователите прекарват години в търсене на начини да предскажат структури, като не използват нищо друго освен последователността на аминокиселините, които ги съставят. Преди AlphaFold, точността на софтуера не беше достатъчно висока, за да бъде постоянно полезна.
Колекцията от човешки протеини
DeepMind не се опита да предскаже структурата на всеки протеин в човешкия геном. Някои просто са твърде големи и се обработват удобно. Повечето протеини са далеч по-малки от това, така че крайният брой е 98,5% от очакваното. Предполага се, че някои от тези протеини съществуват само въз основа на характеристиките на ДНК последователностите в човешкия геном.
Също толкова важно е, че AlphaFold включва оценка на доверието, която регистрира каква е вероятността прогнозите да бъдат точни. Като цяло, софтуерът е точен в местоположението на около 60% от аминокиселините, които е предвидил. По висок процент точност имаме за малко над една трета. Казано по друг начин, изследователите имат уверена прогноза за по-голямата част от структурата на 40% от човешките протеини. Очевидно това означава, че има много работа, която трябва да свършим, преди да можем да кажем, че имаме пълния набор от човешки протеини. Но това все още е много повече от 18-те процента, за които имаме реални структури.
Има и голяма колекция от протеини, които не са добре представени от съществуващите структури. Вградените в клетъчната мембрана са трудни за изолиране и работа. Но въпреки че има по-малко примери в данните си за обучение, AlphaFold изглежда се справя доста добре със структурите.
Проблеми в системата
Много протеини просто не образуват определена структура. Всъщност тяхната функция изглежда зависи от наличието на напълно гъвкава постройка, за да функционира. Тук е трудно да се направят точни прогнози. Има и много протеини, които приемат структурата си само когато са в контакт с друг протеин или химикал. Тъй като AlphaFold не разполага с тази информация, не може да направи много.
Като цяло, екипът на DeepMind установи, че AlphaFold има много ниско доверие в своите прогнози за неподредени региони и те могат да използват тази информация, за да идентифицират области на протеини, които е вероятно да бъдат неструктурирани.