ITBench-AA ukazuje, že agenti ešte nezvládajú podnikové incidenty spoľahlivo
Artificial Analysis a IBM spúšťajú benchmark ITBench-AA pre agentické úlohy v podnikovej IT prevádzke. Prvé výsledky sú triezve: najlepšie frontier modely zostávajú pod hranicou 50 percent.