AI výskum22. apríla 20263 min čítania

Výskum spochybňuje predstavu AI vedcov: výsledok ešte neznamená vedecké uvažovanie

Štúdia sledujúca viac než 25-tisíc behov agentických systémov tvrdí, že dnešní AI „vedci“ síce vedia vykonávať workflow, no zriedka postupujú spôsobom, ktorý by zodpovedal skutočne vedeckému uvažovaniu.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#evaluácie #LLM #vedecké uvažovanie #agenti #AI scientist #arXiv

Myšlienka AI vedca sa za posledný rok stala jedným z najsilnejších naratívov okolo agentov. Nová práca s príznačným názvom „AI scientists produce results without reasoning scientifically“ však prináša nepríjemné vytriezvenie. Autori analyzovali viac než 25-tisíc behov agentických systémov naprieč ôsmimi doménami a tvrdia, že dnešné LLM agenty dokážu produkovať výsledky a dokonca vykonávať výskumný workflow, ale ich spôsob uvažovania sa často nepodobá tomu, čo robí vedeckú prácu samoopravnou a epistemicky dôveryhodnou. Inými slovami: výstup môže vyzerať presvedčivo, no proces, ktorý k nemu viedol, často nespĺňa základné normy vedeckého overovania.

Jadro zistenia je prekvapivo tvrdé. Autori hovoria, že základný model vysvetľuje podstatne viac variability výkonu aj správania než samotný agentický scaffold. V ich rozklade príspevkov tvorí base model vyše 41 percent vysvetlenej variability, zatiaľ čo scaffold iba približne 1,5 percenta. To je dôležité pre celý trh autonómnych výskumných agentov. Naznačuje to, že zlepšovanie orchestrace, nástrojových slučiek a workflow štruktúr má svoje limity, ak samotný model nevykazuje správne epistemické návyky. Pekne poskladaný agent teda nemusí byť bližšie k vedeckému mysleniu než samotný základný model, len pracuje efektívnejšie.

Autori navyše ukazujú konkrétne slabiny. V 68 percentách stôp agenti ignorovali dôkazový materiál, refutačná revízia presvedčenia sa objavila len v 26 percentách prípadov a zriedkavé bolo aj konvergentné vyhodnocovanie viacerých testov. To sú presne tie vlastnosti, ktoré odlišujú skutočný výskum od mechanického vyplňovania krokov. Vedecké uvažovanie totiž nie je len sled operácií, ale schopnosť nechať sa usmerniť dôkazom, meniť hypotézu po vyvrátení a kombinovať nezávislé signály. Ak tieto vlastnosti chýbajú, systém môže produkovať výsledky, ktoré sa tvária ako výskum, ale ich spoľahlivosť je systematicky otázna.

Pre startupy a laboratóriá, ktoré dnes stavajú „AI scientist“ produkty, je to veľmi nepríjemný, ale dôležitý protiargument. Trh sa rád pozerá na to, či agent dokončí workflow, spustí simuláciu, navrhne experiment alebo vygeneruje hypotézu. Táto práca však pripomína, že outcome-based evaluácia nemusí odhaliť hlbšie zlyhanie spôsobu uvažovania. Aj keď agent doručí použiteľný výsledok, môže sa k nemu dostať cestou, ktorá je v ďalšom behu nereprodukovateľná alebo epistemicky neopodstatnená. Pre oblasti ako bioinformatika, materiálový výskum alebo chémiu je to zásadný rozdiel.

Z pohľadu vývoja modelov je zaujímavá aj téza, že scaffold engineering sám o sebe problém nevyrieši. Autori pozorovali rovnaké vzorce správania pri jednoduchom workflow execution aj pri úlohách s hypotézami a dokonca aj v prípadoch, keď agent dostal ako kontext takmer kompletné úspešné trajektórie. To naznačuje, že chýbajúca vedecká disciplína nie je len problémom rozhrania, ale hlbšieho tréningového cieľa. Ak model nebol učený robiť dôkazovú revíziu, scaffold ju zrejme nevyčaruje.

Tento výsledok je dôležitý aj mimo čisto vedeckých agentov. Rovnaký problém sa môže prejavovať všade tam, kde sa od AI očakáva postupové uvažovanie so spätnou väzbou: pri internom výskume, analýze dokumentov, due diligence alebo regulačných kontrolách. Ak systém nepracuje s dôkazom spôsobom, ktorý vieme obhájiť, potom je jeho „autonómia“ skôr operačnou než epistemickou výhodou. Ušetrí kroky, ale negarantuje kvalitnejší úsudok.

Najcennejší príspevok tejto práce preto nie je len kritika jedného marketingového trendu. Je to výzva, aby sa pri hodnotení agentov sledovalo nielen to, čo doručili, ale aj ako k tomu dospeli. Ak sa AI naozaj má posunúť k vedeckej práci, tréning aj evaluácia budú musieť cieliť priamo na vzorce uvažovania, nie iba na konečný výsledok. Bez toho ostanú „AI vedci“ skôr efektívnymi vykonávateľmi workflow než dôveryhodnými producentmi vedeckého poznania.

Zdroje

Výskum spochybňuje predstavu AI vedcov: výsledok ešte neznamená vedecké uvažovanie

Ďalšie články k téme

Transliterácia sa vracia do hry: nový prehľad tvrdí, že LLM stále narážajú na bariéru písma

AlphaEarth naznačuje, že agentické environmentálne AI bude stáť skôr na retrievale než na vektorovej mágii

EasyRL sľubuje silnejšie post-tréningové učenie aj s malým objemom označených dát