Výskum
Autor: Redakcia AI Feed
IBM a Hugging Face otvárajú VAKRA: benchmark pre agentov v API a dokumentoch
VAKRA chce merať agentov v prostredí, kde nestačí pekná ukážka ani jeden tool call. Benchmark kombinuje tisíce lokálnych API, databázy a dokumenty, aby bolo vidieť, kde sa agent láme pri viac-krokovom rozhodovaní a reálnom vykonávaní úloh.