Evo 2: Revoluční model AI pro porozumění a tvorbu genomů
Arc Institute, nezisková výzkumná organizace, představila svůj nový průlomový projekt – Evo 2, model umělé inteligence (AI), který dokáže nejen rozumět, ale také vytvářet kompletní genomy organismů. Tento model přináší nové možnosti do oblasti biologie a genetického výzkumu.
Nový krok k pochopení biologie
Výzkumný tým, složený převážně z odborníků z Arc Institute a prestižních kalifornských univerzit, poukazuje na mimořádnou velikost modelu Evo 2. Zatímco původní model Evo se zaměřoval pouze na prokaryota (organismy bez jádra), nový model zahrnuje i eukaryota, což zahrnuje vše od améb po lidské bytosti. Celkem bylo při jeho tréninku využito 9,3 bilionu bázových párů.
Byly vytvořeny dvě varianty modelu: jedna se 7 miliardami parametrů (7B) a druhá se 40 miliardami parametrů (40B). Model využívá kontextové okno o délce milionu bázových párů. Vše je open source, včetně kódu pro trénink a inferenci, parametrů i tréninkových dat z databáze OpenGenome2.
Podobně jako velké jazykové modely (LLMs), i Evo 2 byl trénován na předpovídání dalšího „tokenu“. Namísto slov v přirozeném jazyce však předpovídá následující DNA bázový pár. Model je postaven na systému StripedHyena2, který využívá hybridní přístup a umožňuje modelu analyzovat data z různých úhlů pohledu.
Předpovídání vlivu genetických mutací
Jedním z největších úspěchů Evo 2 je schopnost předpovídat, zda genetická mutace ovlivní klíčové funkce organismu. Jde o průlom, protože nic podobného dosud nebylo možné u eukaryot. Model dokáže předpovědět pravděpodobnost mutací v souvislosti se start a stop kodony, což naznačuje, že má „porozumění“ základním genetickým principům, ačkoliv byl trénován pouze na bázových párech, bez explicitního vysvětlení jejich významu.
Při testování modelu na RNA sekvencích se ukázalo, že dokáže přesně určit, zda daná mutace ovlivní funkčnost sekvence, včetně tzv. nekódujících oblastí, které mohou mít významné důsledky. Silnější model (40B) byl v tomto ohledu výrazně lepší než slabší (7B).
Úspěchy i v lidských genech
Evo 2 dokonce uspěl při předpovědích mutací v lidském genu BRCA1, který je často spojován s rakovinou prsu. Při konkrétním zaměření dokázal lépe než specializované modely určit, které mutace mohou být nebezpečné. Co je ještě působivější, je fakt, že model byl trénován pouze na jeden referenční lidský genom a jeho schopnosti vycházejí z obecných biologických principů, nikoliv pouze z lidských dat.
Porozumění genetice od základu
Při bližším zkoumání „myšlenkových“ procesů Evo 2 vědci zjistili, že model dokáže rozpoznat CRISPR-spojené sekvence ve E.coli. Namísto pouhého memorování těchto sekvencí identifikoval tzv. CRISPR spacery, což ukazuje na skutečné porozumění genetické struktuře.
Dále byl model schopen rozpoznat frameshift mutace, předčasné stop kodony, exony a introny. Dokonce uměl využít informace z lidského genomu a aplikovat je na genom vyhynulého mamuta srstnatého, aniž by byl na něj přímo trénován.
Generování nových genomů
Jelikož Evo 2 je generativní AI, výzkumníci mu zadali úkol vytvářet nové genomy. Výsledky ukázaly, že vygenerované genomy měly mnoho přirozených rysů, včetně realistické přístupnosti chromatinu. Přestože fyzické struktury na základě těchto genomů vytvořeny nebyly, autoři věří, že s dalším tréninkem by model mohl být schopen generovat efektivní genetické struktury.
Bezpečnostní opatření proti zneužití
Aby se předešlo riziku zneužití modelu pro bioterorismus, výzkumníci záměrně vyloučili infekční choroby z tréninkové sady. Model byl také testován tak, aby neměl lepší než náhodnou schopnost rozpoznávat či generovat patogeny. Přesto však vědci připouštějí, že nelze zabránit tomu, aby někdo model dále netrénoval s rizikovými daty.
Možnosti v léčbě nemocí a stárnutí
Evo 2 by mohl pomoci při diagnostice a léčbě stavů, jako je mitochondriální dysfunkce či genomová nestabilita, například tím, že identifikuje a lépe pochopí věkem podmíněné mutace, které dávají některým buňkám či mitochondriím reprodukční výhodu na úkor organismu. Do budoucna by mohl sloužit k testování mutací u jednotlivců či dokonce k vytváření cílených genových terapií.
Závěr a další směřování
Manuskript byl publikován na webu Arc Institute a zatím neprošel recenzním řízením v odborném časopise. Přesto díky podrobnosti studie a renomé autorů lze předpokládat, že její závěry mají solidní základ. Jelikož je Evo 2 open source, brzy se ukáže, zda dokáže posunout výzkum v oblasti onkologie, genetických onemocnění či samotného stárnutí na genetické úrovni.