AI novinky9. mája 20263 min čítania

METR spochybňuje dôkazy Anthropicu o nízkom riziku automatizovaného AI výskumu

Nezávislý tím METR súhlasí s tým, že aktuálne modely Anthropicu zrejme nepredstavujú vysoké riziko plnej automatizácie výskumu a vývoja. Zároveň však tvrdí, že samotný februárový risk report firmy tento záver nedokazuje dostatočne presvedčivo.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#risk report #evaluations #safety #Claude #Anthropic #METR

Model Evaluation & Threat Research, známy skôr pod skratkou METR, zverejnil externé hodnotenie časti februárového risk reportu spoločnosti Anthropic. Predmetom preskúmania bola kapitola o rizikách z automatizovaného výskumu a vývoja, teda o otázke, či by model na úrovni Claude Opus 4.6 alebo slabší systém mohol sám urýchliť kritické R&D procesy natoľko, že by z toho vznikalo katastrofické riziko. Už samotný fakt, že Anthropic k svojmu reportu prizval externú kritiku, je signálom, že bezpečnostné dokumenty sa z PR materiálu menia na niečo bližšie k oponovanému technickému podkladu.

Najzaujímavejší je však samotný záver METR. Organizácia píše, že sa zhoduje s „bottom-line“ tvrdením Anthropicu, podľa ktorého je riziko katastrofy z automatizovaného R&D pri Opus 4.6 alebo slabšom modeli veľmi nízke. Zároveň však dodáva, že dôkazy prezentované v pôvodnom reporte na takýto záver nestačia. Inými slovami: rovnaký výsledný odhad rizika, ale slabšia dôkazná reťaz, než akú Anthropic vo februári naznačoval.

METR kritizuje najmä analytickú rigoróznosť. Podľa recenzie má Anthropic problém s tým, ako interpretuje výsledky interného prieskumu používania modelu, akú má vzorku a ako formuluje otázky. Recenzenti výslovne píšu, že citované výsledky poskytujú len slabý dôkaz o celkovej úrovni rizika. To je podstatná pripomienka, pretože veľká časť dnešných bezpečnostných argumentov stojí na kombinácii capability evals, interných survey mechanizmov a expertnej interpretácie. Ak niektorá z týchto zložiek nie je dostatočne pevná, výsledný report môže pôsobiť presvedčivejšie, než v skutočnosti je.

Druhá línia kritiky smeruje na prezentáciu dát. METR uvádza, že Anthropic v jednej časti sumarizuje výsledky spôsobom, ktorý prepočítava chýbajúcu odpoveď ako negatívnu odpoveď. Na prvý pohľad ide o technický detail, v prostredí risk reportov je to však zásadná vec. Keď sa firmy snažia dokázať, že nové modely ešte nedosahujú nebezpečný prah autonómie, aj malé posuny v agregácii dôkazov môžu meniť to, ako robustne vyzerá celý argument.

Recenzenti zároveň upozorňujú na širší problém: riziko nemusí vznikať až v momente plnej automatizácie výskumu. Aj čiastočné zrýchlenie AI R&D môže mať významné dôsledky pre bezpečnosť, geopolitiku či závody vo vývoji. Toto je dôležitá výhrada voči binárnemu rámcu „dokáže to alebo nedokáže“. V realite môže byť pre trh aj regulátorov rovnako dôležité to, o koľko model skracuje čas experimentov, ladenia, syntézy hypotéz alebo interných vedeckých workflow, aj keď ich ešte nevie kompletne nahradiť.

Anthropic vo vlastnom februárovom reporte opisuje dve veľké autonómne hrozbové línie: sabotáž a riziká z automatizovaného R&D. Zároveň dokumentuje mitigácie od monitoringu po prístupové obmedzenia a širšie bezpečnostné opatrenia. METR však svojou recenziou pripomína, že kvalitný bezpečnostný dokument nemá len vymenovať opatrenia, ale aj presvedčivo ukázať, prečo dané capability zatiaľ neležia na nebezpečnej úrovni. Bez toho sa z reportu ľahko stane argument z autority namiesto argumentu z dôkazov.

V praxi je toto celé dôležité aj pre ostatné laboratóriá. S pribúdajúcimi system cards, risk reportmi a benchmarkmi sa bude zvyšovať tlak na to, aby boli takéto materiály lepšie auditovateľné zvonka. Nestačí povedať, že firma model vyhodnotila a nič kritické nenašla. Dôležité bude, či externý tím vie z dostupných dát a metodiky dospieť k rovnakému záveru, alebo aspoň presne ukázať, kde sú slabé miesta. Práve v tomto bode môže METR nastaviť novú latku pre to, ako má vyzerať verejné oponentné čítanie AI safety reportov.

Pre AI Feed je podstatné aj to, čo táto epizóda hovorí o stave sektora. Debata sa presúva od jednoduchých sporov „bezpečné alebo nebezpečné“ k sporom o to, aký typ dôkazov je vlastne postačujúci. Ak sa má bezpečnosť modelov brať podobne vážne ako bezpečnosť infraštruktúry alebo medicínskych produktov, bude čoraz dôležitejšie nielen to, čo firmy tvrdia, ale aj ako svoje tvrdenia podopierajú. METR týmto textom nepriniesol senzáciu o bezprostrednej hrozbe. Priniesol niečo možno užitočnejšie: požiadavku, aby sa aj upokojujúce závery dali skutočne obhájiť.

Zdroje

METR spochybňuje dôkazy Anthropicu o nízkom riziku automatizovaného AI výskumu

Ďalšie články k téme

AWS tlačí RLVR do praxe: na SageMakeri ukazuje GRPO s overiteľnou odmenou

OpenAI rozširuje Trusted Access for Cyber na GPT-5.5 a spúšťa GPT-5.5-Cyber

Tomofun presúva pet AI na Inferentia2, AWS cieli na lacnejšiu VLM inferenciu