AI výskum28. mája 20263 min čítania

ITBench-AA ukazuje, že agenti ešte nezvládajú podnikové incidenty spoľahlivo

Artificial Analysis a IBM spúšťajú benchmark ITBench-AA pre agentické úlohy v podnikovej IT prevádzke. Prvé výsledky sú triezve: najlepšie frontier modely zostávajú pod hranicou 50 percent.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Hugging Face Blog / Artificial Analysis

#enterprise AI #AI agenti #benchmarky #IBM #Artificial Analysis #SRE

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Nový benchmark ITBench-AA posúva hodnotenie agentov z abstraktných úloh do prostredia, ktoré je bližšie reálnej podnikovej prevádzke. Artificial Analysis a IBM ho predstavili ako prvú časť širšej série testov zameraných na agentické enterprise IT úlohy. Úvodná sada sa venuje práci tímov SRE, teda riešeniu incidentov v infraštruktúre, kde agent nemá len odpovedať na otázku, ale musí čítať logy, sledovať závislosti, hľadať koreňovú príčinu problému a vybrať správny zásah v živom systéme.

Dôležitý je hlavne výsledok: podľa zverejneného opisu dosahujú aj najlepšie modely menej než 50 percent. Claude Opus 4.7 v režime Adaptive Reasoning Max Effort vedie so 47 percentami, GPT-5.5 v nastavení xhigh je na 46 percentách a Qwen3.7 Max na 42 percentách. Takéto čísla nie sú zlyhaním jedného modelu, ale skôr signálom, že enterprise IT incidenty sú pre dnešných agentov stále tvrdý problém. Nestačí dlhá reťaz úvah ani schopnosť volať nástroje; model musí z množstva neúplných signálov odlíšiť príznaky od príčiny.

Benchmark vychádza z IBM ITBench, datasetu zameraného na podnikové IT operácie. Artificial Analysis ho upravil do podoby hodnotenia frontier modelov a začína oblasťou Site Reliability Engineering. V úlohách sa agenti stretávajú s incidentmi okolo Kubernetes, kde musia pracovať s diagnostickými stopami, systémovými logmi a prepojenými službami. To je iný typ skúšky než klasické programátorské benchmarky, pretože správna odpoveď často nevyplýva z jedného súboru ani z jednej chyby v kóde.

Zverejnené pozorovania sú zaujímavé aj tým, že dlhší priebeh práce automaticky neznamená lepší výsledok. Blog uvádza takmer trojnásobné rozdiely v počte krokov medzi modelmi. GPT-5.5 v režime xhigh priemerne spotreboval 31 ťahov na úlohu, kým Gemini 3.1 Pro Preview priemerne 83 ťahov a dosiahol nižšiu presnosť. To naznačuje, že agenti v takýchto situáciách často „prešetrujú“ incident, nachádzajú vedľajšie symptómy alebo sa nechajú odviesť mechanizmom, ktorý problém iba sprevádza.

Pre firmy je to praktické upozornenie. Agentické nástroje pre DevOps a SRE môžu zrýchliť triedenie incidentov, pripraviť súhrny alebo navrhovať ďalšie diagnostické kroky, ale benchmark naznačuje, že ich zatiaľ nemožno považovať za plne autonómnu náhradu skúseného operátora. V prostredí, kde nesprávny zásah môže zhoršiť výpadok, bude rozhodujúca kombinácia obmedzených oprávnení, auditovateľného logu krokov a jasného ľudského schvaľovania pri rizikových akciách.

ITBench-AA zároveň ukazuje, prečo bežné leaderboardy nestačia. Model, ktorý výborne rieši programátorské úlohy alebo všeobecné otázky, môže naraziť v situácii, kde treba pracovať s časovým sledom udalostí, infraštruktúrnymi závislosťami a šumom v telemetrii. Podnikové úlohy majú aj inú metriku úspechu: nejde iba o elegantnú odpoveď, ale o presnú identifikáciu koreňovej príčiny, reprodukovateľný postup a minimalizáciu rizika pri zásahu do produkcie.

Pozitívom benchmarku je jeho smerovanie. Autori avizujú, že po SRE majú nasledovať aj úlohy z oblasti FinOps a bezpečnostného riadenia. To by mohlo vytvoriť hodnotnejší obraz o tom, kde agenti reálne pomáhajú v podnikoch a kde iba pôsobia presvedčivo v demonštráciách. Pre dodávateľov modelov je to tlak na lepšie nástroje pre prácu s observabilitou, presnejšie overovanie hypotéz a schopnosť priznať neistotu namiesto vymýšľania príčiny.

Pre trh s agentmi je správa triezva, no užitočná. ITBench-AA nehovorí, že agenti sú nepoužiteľní; hovorí, že ich nasadenie v kritickej IT prevádzke potrebuje tvrdšie meranie než ukážkové workflow v kontrolovanom prostredí. Ak sa má agent dostať bližšie k produkčným incidentom, bude musieť preukázať nielen schopnosť volať príkazy, ale aj disciplínu, konzistenciu a odolnosť voči falošným stopám.

Pre slovenské a európske podniky je z toho jednoduché ponaučenie: pri nákupe agentických nástrojov sa oplatí pýtať na hodnotenie v scenároch podobných vlastnej infraštruktúre, nie iba na všeobecné skóre modelu. Benchmarky ako ITBench-AA môžu pomôcť oddeliť marketingový sľub od schopnosti riešiť konkrétny incident pod tlakom času.

Zdroje

ITBench-AA ukazuje, že agenti ešte nezvládajú podnikové incidenty spoľahlivo

Ďalšie články k téme

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM