aifeed.skAI Feed
AI výskum4 min čítania

Harvardský test: model o1 v triáži prekonal internistov, no klinickú prax to ešte neznamená

Štúdia z Harvard Medical School a Beth Israel Deaconess naznačuje, že model o1 vedel pri prvom triážnom rozhodovaní trafiť presnú alebo veľmi blízku diagnózu častejšie než dvojica internistov. Autori však zároveň varujú, že zaujímavý benchmark ešte nie je dôkaz pripravenosti nasadiť AI na reálne život-ohrozujúce rozhodnutia.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
AI Feed

Výsledok z Harvard Medical School a Beth Israel Deaconess Medical Center patrí medzi tie AI správy, ktoré si pýtajú dve paralelné reakcie naraz. Prvá je zjavná: ak veľký jazykový model v slepom porovnaní dokáže pri triáži v urgentnom príjme ponúknuť presnú alebo veľmi blízku diagnózu častejšie než dvojica skúsených internistov, ide o signál, ktorý nemožno odbiť ako marketingový šum. Druhá je rovnako dôležitá: takéto skóre samo osebe ešte neznamená, že nemocnice môžu posadiť model na miesto lekára a pustiť ho k život-ohrozujúcim rozhodnutiam bez ďalších vrstiev kontroly, zodpovednosti a prospektívneho testovania.

Štúdia publikovaná v časopise Science skúmala viac situácií, v ktorých sa mali modely OpenAI porovnať s ľudskými lekármi. Najviac pozornosti prirodzene pritiahla časť venovaná 76 pacientom z urgentného príjmu Beth Israel. Výskumníci porovnávali diagnózy dvoch internistov s výstupmi modelov o1 a 4o a tieto návrhy následne hodnotili ďalší dvaja atestovaní lekári bez toho, aby vedeli, či práve čítajú ľudský alebo strojový výstup. Takto nastavené slepé porovnanie je dôležité, pretože odstraňuje časť predsudkov, ktoré pri debatách o AI v medicíne vznikajú takmer automaticky na oboch stranách.

Najsilnejší údaj sa týkal prvého diagnostického kontaktu, teda okamihu, keď má zdravotník najmenej informácií a zároveň najväčší tlak rozhodnúť rýchlo. Práve tam podľa autorov model o1 buď dosiahol lepší výsledok, alebo bol aspoň na úrovni porovnávaných lekárov. Harvardská tlačová správa uvádza, že pri triáži ponúkol o1 presnú alebo veľmi blízku diagnózu v 67 percentách prípadov. Jeden z lekárov sa na túto úroveň dostal v 55 percentách prípadov, druhý v 50 percentách. Pri správnom čítaní nejde o triumfálne vyhlásenie, že AI už „porazila doktorov“ ako profesiu. Ide skôr o dôkaz, že pri práci s textovými záznamami a obmedzeným množstvom vstupov môže špičkový model veľmi rýchlo fungovať ako silný druhý názor.

To je prakticky dôležité najmä preto, že triáž je miesto, kde systém často prehráva nie na kvalite jednotlivého odborníka, ale na preťažení prevádzky. Ak má personál na rozhodnutie sekundy alebo minúty a musí súčasne filtrovať banálne ťažkosti od stavov, ktoré môžu prerásť do sepsy, krvácania či akútneho neurologického problému, každá vrstva rozumnej asistencie môže znížiť riziko prehliadnutia. Model, ktorý vie konzistentne navrhnúť plausibilný diferenciálny zoznam diagnóz alebo upozorniť na nebezpečný smer uvažovania, by v budúcnosti mohol fungovať ako bezpečnostná poistka, nie ako autonómny sudca. To je podstatný rozdiel, ktorý sa v prehnaných titulkoch často stráca.

Autori aj komentátori však zároveň upozorňujú, že benchmark má tvrdé hranice. Modely pracovali len s textovými informáciami dostupnými v elektronickej dokumentácii a nehodnotila sa ich schopnosť spracovať plný klinický obraz vrátane neverbálnych signálov, fyzického vyšetrenia, obrazových dát alebo laboratórnej dynamiky v čase. Ešte dôležitejšie je, že porovnanie neprebiehalo proti urgentným lekárom špecializovaným práve na ER triáž, ale proti internistom. Kritická reakcia z praxe preto správne pripomína, že úspech v diagnostickom kvíze nie je to isté ako úspech v skutočnej prevádzke, kde sa rozhoduje o tom, koho treba okamžite poslať na CT, koho monitorovať a koho možno bezpečne poslať domov.

To otvára širšiu otázku accountability, na ktorú zatiaľ zdravotnícke systémy nemajú dobrú odpoveď. Kto nesie zodpovednosť, ak model navrhne zdanlivo rozumnú, ale klinicky nebezpečnú cestu? Ako sa majú logovať odporúčania, auditovať chyby a vysvetľovať pacientovi, prečo personál nasledoval alebo ignoroval návrh stroja? A ak model pomôže v 95 prípadoch zo 100, ale v piatich zlyhá nepredvídateľným spôsobom, čo je ešte prijateľné v prostredí, kde cena omylu môže byť smrť alebo trvalé poškodenie zdravia? Presne preto autori hovoria o potrebe prospektívnych klinických štúdií, nie o okamžitom nasadení do ostrej prevádzky.

Pre OpenAI a celý trh s foundation modelmi je to napriek opatrným záverom významný moment. Zdravotníctvo je jeden z mála segmentov, kde sa o generatívnej AI nerozhoduje podľa toho, či napíše lepší marketingový text alebo zrýchli support, ale podľa toho, či vie zlepšiť rozhodovanie v podmienkach, kde je neistota vysoká a tolerancia na chybu extrémne nízka. Ak sa ukáže, že modely typu o1 dokážu spoľahlivo zúžiť diagnostický priestor, označiť nebezpečné hypotézy a lepšie prioritizovať urgentné prípady, tlak na ich zavádzanie do nemocničných workflowov prudko vzrastie. Súčasne však porastie tlak regulátorov a poisťovní, aby bolo jasné, kde sa končí asistencia a kde sa začína klinické rozhodnutie vyžadujúce človeka.

Najrozumnejšie čítanie tejto štúdie preto znie takto: AI ešte nie je pripravená nahradiť lekára na urgentnom príjme, ale už je príliš silná na to, aby ju zdravotnícke systémy ignorovali. V krátkom horizonte dáva väčší zmysel čakať nasadenie do podoby kontrolovaného copilota, ktorý sumarizuje prípady, navrhuje možné diagnózy a upozorňuje na rizikové slepé miesta. Ak ďalšie prospektívne testy potvrdia, že takáto asistencia znižuje chybovosť bez toho, aby rozmazávala zodpovednosť, pôjde o jeden z najpraktickejších a spoločensky najcitlivejších posunov generatívnej AI mimo sveta kancelárskeho softvéru.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie