DeepRare: Nový LLM systém s agenty překonává lékaře i modely v diagnostice vzácných onemocnění.

Nový systém založený na velkém jazykovém modelu (LLM) a síti agentních nástrojů dosáhl lepších výsledků než řada dalších modelů a lidských lékařů v diagnostice vzácných onemocnění. Tato zjištění jsou relevantní pro oblast zdravotnictví.

Diagnostika vzácných onemocnění

Vzácná onemocnění mohou být složitá pro diagnostiku. Pacienti na správnou diagnózu čekají v průměru déle než pět let, během nichž procházejí opakovanými doporučeními, chybnými diagnózami a zbytečnými zákroky. Tento proces je v medicíně vzácných onemocnění označován jako „diagnostická odysea“. Vzácná onemocnění jsou definována jako stavy postihující méně než jednu osobu z 2 000 a celosvětově postihují přes 300 milionů lidí. Bylo identifikováno přibližně 7 000 různých poruch tohoto typu, přičemž 80 % z nich má genetický původ.

Přestože asistenti s umělou inteligencí vykazují potenciál v diagnostice, diagnostika vzácných onemocnění pro ně zůstává náročným úkolem. Vzácná onemocnění jsou často multisystémová a vyžadují mezioborové znalosti. Jednotlivá onemocnění mají velmi málo případů, což ztěžuje učení s dohledem, a ročně jsou objeveny stovky nových vzácných genetických onemocnění, takže se znalosti neustále vyvíjejí. Navíc klinické nasazení takových modelů vyžaduje transparentní odůvodnění namísto predikcí typu „černá skříňka“.

V nové studii publikované v časopise Nature představil mezinárodní tým vědců systém DeepRare, multi-agentní systém pro diferenciální diagnostiku vzácných onemocnění. Systém je založen na velkém jazykovém modelu DeepSeek-V3, nicméně se od základního LLM liší tím, že integruje více než 40 specializovaných agentních nástrojů pro různé úkoly.

Architektura systému DeepRare

DeepRare využívá třívrstvou architekturu. První vrstvu tvoří Centrální host, což je velký jazykový model s paměťovou bankou. Ten řídí celý pracovní postup: rozkládá diagnostický úkol, rozhoduje, které agenty vyvolat, syntetizuje důkazy, vytváří předběžné diagnózy a provádí sebereflexní smyčky. Druhou vrstvu představují Agent Servers, která se skládá ze šesti specializovaných modulů, z nichž každý spravuje své vlastní nástroje. Příkladem je Phenotype Extractor, který převádí volný text klinických zpráv do standardizovaných termínů, a Knowledge Searcher, který v reálném čase získává data z webových vyhledávačů a lékařských zdrojů. Získané dokumenty jsou následně shrnuty a filtrovány podle relevance pomocí odlehčeného LLM (GPT-4o-mini). Třetí vrstvu tvoří externí zdroje dat, které agenti používají, jako jsou Google, PubMed a Wikipedia.

Systém funguje ve dvou fázích. První fází je sběr informací, kde fenotypové a genotypové větve běží paralelně. Fenotypová větev standardizuje termíny HPO (Human Phenotype Ontology), získává relevantní literaturu a případy a spouští nástroje pro analýzu fenotypů. Genotypová větev anotuje varianty a řadí je podle klinické významnosti. Centrální host poté provádí syntetickou analýzu a generuje předběžný seznam diagnóz.

Druhou fází je sebereflexe, kde centrální host kriticky přehodnocuje každou hypotézu na základě všech shromážděných důkazů. Pokud jsou všichni kandidáti vyloučeni během sebereflexe, systém se vrátí, zvýší hloubku vyhledávání, shromáždí více důkazů a postup opakuje podle potřeby. Jakmile kandidáti projdou sebereflexí, systém vygeneruje konečný seřazený seznam onemocnění s řetězci odůvodnění, které zahrnují volně psané odůvodnění s odkazy na literaturu.

Zásadní výhodou systému DeepRare je, že nemusí být předem trénován na případech vzácných onemocnění. Trénování LLM vyžaduje velké množství dat, která pro vzácná onemocnění, z nichž některá jsou známa pouze z hrstky případů, jednoduše neexistují. Místo toho obecně trénovaný LLM řídí specializované nástroje pro získávání a analýzu dat, syntetizuje jejich výstupy prostřednictvím uvažování a iterativně ověřuje své vlastní závěry.

Hodnocení výkonu systému

DeepRare byl hodnocen na devíti datových souborech, které zahrnovaly celkem 6 401 případů, 2 919 různých vzácných onemocnění a 14 lékařských specializací. Použité metriky byly Recall@1, @3 a @5, které vyhodnocují, zda se správná diagnóza objeví v top 1, 3 nebo 5 predikcích.

První hodnocení proběhlo proti 15 dalším digitálním nástrojům, včetně obecných LLM, uvažovacích LLM, lékařských LLM a agentních systémů. Všechny modely obdržely jako vstup standardizované popisy Human Phenotype Ontology (HPO).
DeepRare dosáhl průměrného Recall@1 57,18 % a Recall@3 65,25 % napříč všemi srovnáními. Překonal tak druhou nejlepší metodu (Claude-3.7-Sonnet-thinking) s náskokem 23,79 % a 18,65 %. Je však třeba podotknout, že vzhledem k tempu vývoje LLM nebyly do srovnání zahrnuty některé modely vydané po období návrhu studie. Například nejvyšší verze ChatGPT, kterou studie použila, byla 4o.

Následně byl model porovnán s lidskými experty – lékaři. 163 klinických případů bylo prezentováno identicky systému DeepRare a pěti lékařům specialistům na vzácná onemocnění s nejméně desetiletou praxí. Lékaři mohli používat vyhledávače, ale ne nástroje s umělou inteligencí. DeepRare dosáhl Recall@1 64,4 % oproti 54,6 % u lékařů a Recall@5 78,5 % oproti 65,6 %. Podle autorů jde o jednu z prvních demonstrací, kdy výpočetní model překonal expertní lékaře v diagnostice vzácných onemocnění založené na fenotypu.

Pro ověření odůvodnění systému DeepRare se výzkumníci obrátili na deset vedoucích lékařů, kteří vyhodnotili 180 náhodně vybraných případů. Posuzovali, zda byl každý citovaný odkaz spolehlivý a přímo relevantní k diagnostickému závěru, a zjistili, že přesnost odkazů dosáhla 95,4 %.

Literatura

[1] Zhao, W., Wu, C., Fan, Y., Qiu, P., Zhang, X., Sun, Y., Zhou, X., Zhang, S., Peng, Y., Wang, Y., Sun, X., Zhang, Y., Yu, Y., Sun, K., & Xie, W. (2026). An agentic system for rare disease diagnosis with traceable reasoning. Nature, 10.1038/s41586-025-10097-9. Advance online publication.

[2] Glaubitz, R., Heinrich, L., Tesch, F., Seifert, M., Reber, K. C., Marschall, U., … & Müller, G. (2025). The cost of the diagnostic odyssey of patients with suspected rare diseases. Orphanet Journal of Rare Diseases, 20(1), 222.

[3] Nguengang Wakap, S., Lambert, D. M., Olry, A., Rodwell, C., Gueydan, C., Lanneau, V., … & Rath, A. (2020). Estimating cumulative point prevalence of rare diseases: analysis of the Orphanet database. European journal of human genetics, 28(2), 165-173.