Společnost Gero představila model umělé inteligence pro návrh malých molekul bez struktury

Průlom v objevování léčiv: Gero představuje AI model ProtoBind-Diff pro generování sloučenin z proteinové sekvence

Modely umělé inteligence pro objevování léčiv se stávají stále schopnějšími, flexibilnějšími a v některých případech i biologicky agnostičtějšími. Jedním z nejnovějších příspěvků do této rostoucí oblasti je ProtoBind-Diff od singapurské biotechnologické společnosti Gero. Jde o generativní model pro objevování malých molekul, který funguje zcela bez dat o proteinové struktuře.

Inovativní přístup k návrhu léčiv

Zatímco většina platforem umělé inteligence pro návrh léčiv založený na cíli silně závisí na 3D strukturách nebo dokovacích simulacích, ProtoBind-Diff je trénován výhradně na proteinové sekvenci a informacích o ligandu. Učí se z více než milionu aktivních párů protein-ligand a čerpá z předtrénovaných vkládání, aby odvodil chemicky smysluplné interakce pouze z primární sekvence. Podle autorů předtiskové verze modelu to umožňuje generování ligandů napříč celým proteomem – včetně „orphan, flexibilních nebo rychle se objevujících cílů, pro které nejsou strukturní data dostupná nebo spolehlivá“.

Důsledky pro geroscience – obor často omezený omezenou cílovou sledovatelností – jsou významné. Tím, že umožňuje molekulární design pro sekvenčně známé, strukturně neznámé cíle, může ProtoBind-Diff nabídnout efektivnější cestu do biologických šedých zón stárnutí.

Význam pro geroscience

Většina pozornosti kolem umělé inteligence v objevování léčiv se obvykle zaměřuje na optimalizaci – rychlejší dokování, lepší skórování, elegantnější postupy. ProtoBind-Diff se naproti tomu zaměřuje přímo na úzké hrdlo v počáteční fázi: schopnost otevřít obrovskou „temnou hmotu“ proteomu pro terapeutické zkoumání. Tím, že podmiňuje generování molekul pouze proteinovou sekvencí, spíše než strukturními daty, nabízí způsob, jak sledovat cíle, které jsou neuspořádané, osamocené nebo prostě příliš neznámé na to, aby byly strukturně rozřešeny. Pro biologii stárnutí – obor často obviňovaný z toho, že je chudý na cíle a bohatý na hypotézy – to není jen další modelový benchmark; je to změna tempa. Čím méně víme o cíli, tím zajímavějším se nyní stává.

Co činí toto spuštění obzvláště pozoruhodným, není jen design modelu, ale i jeho záměr. Gero plánuje zveřejnit váhy a rozhraní ProtoBind-Diff, aby je mohli prozkoumat i ostatní – což je osvěžující otevřený krok v prostoru často ovládaném proprietárními platformami a uzavřenými smyčkami. Pokud model funguje tak, jak je inzerováno, mohl by urychlit ranou fázi objevování a testování hypotéz, kterou geroscience tak naléhavě potřebuje – umožňující rychlé generování sond, i když chybí strukturní jistota. To sice nezpůsobí, že struktura bude zastaralá, ale vyzývá to k posunu v myšlení: od čekání na jasnost k jednání v nejistotě. A pro obor, který se zabývá složitostí, heterogenitou a pomalu se vyvíjejícími koncovými body, to může být právě ten impuls, který potřebuje.

Jak ProtoBind-Diff funguje

Jádrem ProtoBind-Diff je model s maskovanou difuzí, který generuje řetězce SMILES – textové reprezentace chemických sloučenin – podmíněné vložením proteinové sekvence odvozeným z předtrénovaného jazykového modelu ESM-2. Na rozdíl od metod založených na struktuře, které typicky vyžadují definované vazebné kapsy nebo dokovací pózy, se ProtoBind-Diff učí asociovat sekvenční kontext s chemicky smysluplnými vlastnostmi ligandu.

„Navrhování malých molekul, které zasahují proteinové cíle, je jedním z nejtěžších problémů v objevování léčiv,“ řekl Peter Fedichev, generální ředitel a spoluzakladatel společnosti Gero. „Klasické modelování se potýká s problémy, protože energetické škály, polarizační efekty a složitost proteinové dynamiky činí vysoce přesné predikce téměř nemožnými. Ale možná jsme si kladli špatnou otázku.“

Dodal, že „Příroda tento rébus už musela vyřešit – evoluce optimalizovala biochemický jazyk, který kóduje, jak proteiny a molekuly interagují. S ProtoBind-Diff se toho chopíme. Je to jazykový model, který se učí ze sekvencí, nikoli ze struktur. Nesimuluje fyziku – učí se gramatiku bioaktivity z milionu reálných příkladů.“

Model využívá předtrénovaná vkládání proteinů (ESM-2) a denoisingový difuzní rámec k generování chemicky validních a nových molekul ve formátu SMILES, vedený pouze informacemi na úrovni sekvence. „ProtoBind-Diff generuje chemicky validní, nové a cílově specifické ligandy bez nutnosti strukturního dohledu,“ píší autoři [1]. Přestože během tréninku nikdy neviděl 3D data, pozornostní mapy z modelu se shodují se známými vazebnými zbytky, což naznačuje, že se učí „prostorově smysluplné interakční předpoklady pouze ze sekvence [1].“

Cíle související se stárnutím

Ačkoli je ProtoBind-Diff prezentován jako obecný nástroj pro objevování malých molekul, Fedichev uvedl, že tým Gero jej aktivně aplikuje na biologii související se stárnutím. „ProtoBind-Diff je skutečně obecný nástroj pro objevování malých molekul,“ vysvětlil, „navržený k identifikaci ligandů pro cíle související se stárnutím, které postrádají strukturní data.“

Současné úsilí zahrnuje generování kandidátních molekul pro proteiny zapojené do zánětu, metabolismu a epigenetické regulace – oblastí, které jsou ústřední pro několik charakteristických znaků stárnutí. „Do našich benchmarků jsme zahrnuli FTO (protein spojený s tukovou hmotou a obezitou) – RNA demethylázu, jejíž inhibice může pomoci čelit metabolické dysfunkci a chronickému zánětu nízkého stupně spojenému se stárnutím,“ řekl. „Dalšími příklady jsou epigenetické ‚gumaře‘ a ‚čtečky‘, jako jsou KDM1A a SPIN1, u nichž se zkoumají inhibitory pro aplikace v léčbě rakoviny, zánětu a fibrózy – vše relevantní pro biologii stárnutí.“

„Stárnutí zůstává oblastí chudou na cíle a dlouho před zahájením překladu potřebují výzkumníci rychlé způsoby generování molekulárních sond k testování biologických hypotéz – často za absence vysoce kvalitních strukturních dat,“ dodal. „Zde může ProtoBind-Diff nebo jeho budoucí vylepšení hrát transformativní roli.“

Při benchmarkingu ProtoBind-Diff odpovídal nebo překonával modely založené na struktuře, jako jsou Pocket2Mol a TargetDiff, u řady „snadných“ a „těžkých“ cílů. U několika proteinů s nedostatkem struktury model prokázal vyšší skóre obohacení pomocí Boltz-1 než modely trénované na krystalografických datech.

Efekty na délku života jsou také na pořadu dne, ale čas je omezujícím faktorem. „Studie délky života probíhají, protože vyžadují značný čas a validaci,“ řekl Fedichev.

„Věřím, že jsme teprve na začátku cesty k vytvoření ideálního generativního modelu,“ řekl Konstantin Avchaciov, seniorní výzkumník ve společnosti Gero a hlavní vědec projektu. „Ano, v našich benchmarcích model ProtoBind-Diff překonává některé stávající 3D strukturní modely. Nicméně jsem si jistý, že jak budeme nadále rozšiřovat naše datové soubory o širší rozmanitost proteinových tříd, dosáhneme v budoucnu výrazně lepších výsledků.“

Další kroky a dopad

Gero integrovalo ProtoBind-Diff do své interní pipeline pro objevování léčiv a zkoumá spolupráce v onkologii, imunologii, infekčních onemocněních a geroterapeutice. Veřejné úložiště GitHub již bylo spuštěno a širší přístup k celému modelu je slíben brzy.

Zda se ProtoBind-Diff stane základním nástrojem nebo generačním milníkem, bude záviset na výkonu v reálných aplikacích – ale prozatím se zdá, že nabízí něco, co biologie stárnutí dlouho potřebovala: rychlejší cestu od sekvence k hypotéze, i když struktura není k dispozici.

Reference:

[1] https://www.biorxiv.org/content/10.1101/2025.06.16.659955v1