Nová studie porovnala AI model s lékaři: Umělá inteligence je lepší v klinickém uvažování.

Nová studie porovnala pokročilý velký jazykový model s lidskými lékaři v úkolech zahrnujících komplexní klinické uvažování, doporučení léčby a práci s reálnými, často neúplnými záznamy pacientů.

Vývoj inteligentních systémů v medicíně

Představa „počítačového lékaře“ se objevila již v roce 1959. Až do nedávného vzestupu velkých jazykových modelů (LLM) se však žádný počítačový program nepřiblížil schopnostem lidských lékařů při řešení složitých klinických případů. Nástup LLM s sebou přinesl novou naději a vedl k řadě studií s povzbudivými výsledky. Dalším významným krokem byl vznik takzvaných „uvažujících“ modelů, které si udržují vnitřní řetězec myšlenek a jsou schopny vysvětlit svá rozhodnutí.

Nyní byla v časopise Science publikována první rigorózní studie, která přímo porovnala takovýto uvažující LLM s lidskými lékaři. Studie využila první uvažující model společnosti OpenAI, o1-preview. Vzhledem k rychlému tempu pokroku v oblasti umělé inteligence je již tento model zastaralý a novější modely by měly vykazovat ještě lepší výkonnost.

Model překonává lidi v náročných případech

Výzkumníci testovali model v šesti různých úkolech, které jsou typické pro lékaře, a porovnávali ho se stovkami lékařů a s dřívějšími modely, jako je GPT-4. Nejprve modelu o1-preview předložili kompletní text 143 klinicko-patologických konferencí (CPC) z New England Journal of Medicine (NEJM) a požádali jej o vytvoření seřazeného seznamu možných diagnóz, takzvané diferenciální diagnózy. Dva lékaři nezávisle hodnotili výstupy. CPC je běžně používaný formát, při kterém je podrobně prezentován skutečný, obvykle náročný případ, a diskutující jej nahlas prochází, sestavuje diferenciální diagnózu a dochází k finální odpovědi.

Model o1-preview zahrnul správnou diagnózu do své diferenciální diagnózy v 78,3 % případů a pojmenoval ji jako nejpravděpodobnější odhad v 52 % případů. Pokud byly jako správné započítány i „velmi blízké“ odpovědi, přesnost dosáhla 97,9 %.

Kritickým tématem u LLM a publikovaných případů je zapamatování si, jelikož model mohl vidět případ a jeho odpověď během tréninku. Autoři se tímto zabývali porovnáním výkonnosti u případů, které byly publikovány před a po době předtréninku modelu o1-preview. Nezaznamenali žádný významný rozdíl, což naznačuje skutečné uvažování spíše než pouhé vybavení si zapamatované informace.

Model GPT-4 dosáhl znatelně horších výsledků. Ještě důležitější je, že v podmnožině 101 případů, kde byly dříve zdokumentovány odpovědi lidských lékařů, model o1-preview překonal lidské lékaře v přesnosti jak u prvního, tak u deseti nejlepších tipů.

Umělá inteligence a doporučení dalšího postupu

Stanovení diagnózy je pouze prvním krokem. Studie zkoumala, zda model dokáže správně doporučit další kroky. Pro zodpovězení této otázky se autoři u 136 stejných CPC zeptali modelu o1-preview, jaký diagnostický test by nařídil jako další. V 87,5 % případů model vybral správný test; v dalších 11 % vybral něco, co recenzenti označili za užitečné; a pouze v 1,5 % byla volba neužitečná.

Dále tým testoval o1-preview na 20 případech z NEJM Healer, vzdělávacího nástroje pro virtuální pacienty, přičemž hodnotil odpovědi ve čtyřech oblastech písemného klinického uvažování, jako je reprezentace problému a odůvodnění diferenciální diagnózy. Model dosáhl perfektního skóre 10 bodů v 78 z 80 odpovědí, čímž významně překonal GPT-4 (47/80), atestované lékaře (28/80) a rezidenty (16/72). V jedné oblasti, a to zahrnutí „nepřehlédnutelných“ diagnóz (vysoce rizikové možnosti, které musí být zváženy, i když jsou vzdálené), nebyl model o1-preview významně lepší než lidští lékaři.

V dalším testu schopnosti umělé inteligence dávat doporučení a nejen diagnózy, autoři použili pět klinických vinět z předchozí studie, které se zúčastnilo 25 odborných lékařů. Model o1-preview dosáhl mediánu 89 %, což bylo výrazně lepší než samotný GPT-4 (42 %), lékaři používající GPT-4 (41 %) a lékaři používající konvenční zdroje (34 %).

Pro důkladnější posouzení obav z memorizace autoři použili šest diagnostických vinět, které byly převzaty ze studie z roku 1994 a nikdy nebyly veřejně dostupné. Model o1-preview dosáhl mediánu 97 % ve srovnání s 92 % pro GPT-4, 76 % pro lékaře + GPT-4 a 74 % pro lékaře + konvenční zdroje. Žádné z rozdílů však nedosáhly statistické významnosti kvůli malému počtu případů.

Práce s reálnými klinickými daty

V posledním experimentu, který odlišuje tuto práci od dřívějších studií, autoři shromáždili 76 skutečných, náhodně vybraných případů z pohotovostního oddělení Beth Israel Deaconess Medical Center, se všemi identifikátory a nestrukturovanými poznámkami – tedy s reálnými klinickými daty. Poté sestavili tři „diagnostické body“, které reprezentovaly informace dostupné v po sobě jdoucích fázích návštěvy pohotovosti: počáteční třídění (minimální data), hodnocení lékařem pohotovosti (již dostupná anamnéza, vyšetření a počáteční laboratorní výsledky) a přijetí na lůžkové oddělení nebo jednotku intenzivní péče (nejúplnější data).

Na každém diagnostickém bodě modely o1, GPT-4o a dva atestovaní lékaři nezávisle vytvořili diferenciální diagnózy. Dva další atestovaní lékaři, kteří neznali zdroj diagnóz, každou diferenciální diagnózu hodnotili. Zjištění, že nebylo možné rozlišit, zda diagnózy pocházejí od umělé inteligence nebo od člověka, bylo indikátorem, že výstupy modelu o1 byly stylisticky nerozeznatelné od lidských výstupů.

Model o1 dosáhl lepších výsledků než oba atestovaní lékaři i GPT-4o. Největší výhoda byla patrná při počátečním třídění, kde je k dispozici nejméně dat a kde jsou sázky nejvyšší. Při přijetí, kdy je dat k dispozici více, se rozdíl zúžil a již nebyl statisticky významný, což naznačuje, že model o1 extrahuje více diagnostického signálu z omezených informací než lékaři.

Adam Rodman, MD, MPH, nemocniční lékař a klinický výzkumník v BIDMC, uvedl, že data vůbec nepředzpracovávali. Model podle něj zpracovával data tak, jak existují ve zdravotní dokumentaci. Původně očekával, že experiment nebude fungovat příliš dobře, ale výsledky byly jiné.

Spoluautor studie Arjun (Raj) Manrai, asistent profesora biomedicínské informatiky na Harvard Medical School, dodal, že model AI otestovali prakticky proti všem referenčním hodnotám a překonal jak dřívější modely, tak i lidské lékaře. Zároveň upozornil, že to nutně neznamená, že umělá inteligence zlepší péči – způsob a místo jejího nasazení zůstávají nedostatečně prozkoumány, a je nezbytně nutné provést rigorózní prospektivní studie k vyhodnocení dopadu umělé inteligence na klinickou praxi.