AI výskum18. mája 20263 min čítania

IBM a Hugging Face spúšťajú Open Agent Leaderboard pre celé agentické systémy

Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Hugging Face / IBM Research

#AI agenti #benchmarky #IBM Research #Hugging Face #evals #leaderboard

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 4 zdroje.

Hugging Face spolu s IBM Research spustili Open Agent Leaderboard, nový otvorený rebríček zameraný nie na samotné modely, ale na celé agentické systémy. Je to dôležitá zmena optiky. Doteraz sa veľká časť AI benchmarkov sústredila na jednu číselnú odpoveď: ktorý model dosiahol aké skóre na konkrétnej úlohe. Pri agentoch však takýto pohľad často nestačí, pretože výsledok nevzniká len v modeli, ale v kombinácii plánovania, pamäte, nástrojov, obnovy po chybe a ceny behu.

Autori v úvodnom texte hovoria priamo, že pri nasadení agenta si organizácia nevyberá iba model, ale celý systém. Rovnaký model môže podľa nich dosahovať veľmi odlišné výsledky aj náklady v závislosti od toho, ako je agent postavený. Nový leaderboard preto sľubuje, že bude porovnávať nielen kvalitu, ale aj cenu. To je praktický rozdiel oproti mnohým doterajším evalom, ktoré ukazujú presnosť bez toho, aby zachytili, koľko krokov, volaní nástrojov alebo zdrojov si cesta k výsledku vyžiadala.

Projekt je postavený na viacerých otvorených vrstvách. Verejný leaderboard beží ako Hugging Face Space, výsledky sú publikované aj v datasete a metodiku opisuje samostatná práca General Agent Evaluation na arXive. IBM zároveň prepája celý projekt s frameworkom Exgentic, ktorý má slúžiť na reprodukovateľné spúšťanie hodnotení. To je dôležité, pretože pri agentoch býva opakovateľnosť obzvlášť problematická. Malá zmena v promptoch, výbere nástrojov alebo rozpočte krokov dokáže poradie výrazne premiešať.

Samotná ambícia leaderboardu je zaujímavá aj tým, že sa sústreďuje na všeobecnosť, teda na otázku, či sa agent vie preniesť medzi rôznymi prostrediami a úlohami bez ručného doladenia pre každý nový scenár. To je tvrdší test než benchmark šitý na jednu konkrétnu vertikálu. V praxi totiž nie je najcennejší agent, ktorý zažiari v starostlivo pripravenom deme, ale taký, ktorý zvládne meniace sa nástroje, pravidlá a obmedzenia bez toho, aby sa pri každom presune rozsypala jeho spoľahlivosť alebo ekonomika.

Pre vývojárov a firmy je podstatné, že takýto benchmark môže zmeniť spôsob nákupu aj internej evaluácie agentov. Ak sa do centra dostane pomer výkonu k nákladom, budú mať väčšiu šancu uspieť systémy, ktoré síce nevyhrajú v surovom skóre, ale dokážu podať stabilný výsledok lacnejšie a s menším prevádzkovým rizikom. To je veľmi relevantné pre enterprise nasadenia, kde sa rozhoduje nielen podľa dem a dojmu z modelu, ale aj podľa nákladov na tisíce až milióny spustení.

Zároveň však treba rátať s tým, že aj otvorený leaderboard bude len jednou vrstvou obrazu. Generalita je ťažko uchopiteľná veličina a sama komunita sa ešte len učí, ako porovnávať systémy, ktoré sa skladajú z modelov, nástrojov, orchesteringu a pamäťových mechanizmov. Práve preto je užitočné, že autori zverejňujú nielen front-endový rebríček, ale aj paper, dataset a framework. Tým dávajú ostatným možnosť spochybniť metodiku, rozšíriť ju alebo použiť na vlastných agentoch, čo je pri rýchlo sa meniacom trhu dôležitejšie než jednorazový titulok o víťazovi.

Pre Hugging Face je to zároveň logické rozšírenie roly, ktorú dlhšie hrá v open-source AI. Namiesto jednoduchého hostingu modelov sa čoraz častejšie stáva miestom, kde sa stretáva distribúcia modelov, evaly, datasety a demonštrácie nástrojov. IBM Research zasa týmto krokom posilňuje svoju prítomnosť v debate o tom, ako merať agentické systémy tak, aby benchmark nehodnotil iba marketingové tvrdenie, ale reprodukovateľný výkon.

Ak sa Open Agent Leaderboard uchytí, môže zrýchliť prechod od nadšenia z agentov k tvrdšiemu porovnávaniu toho, čo reálne funguje. Trh dnes potrebuje menej neurčitých sľubov o autonómii a viac transparentných dát o tom, aký systém, s akým modelom, v akom rozpočte a s akými nástrojmi zvláda konkrétny typ úloh. Práve v tomto je dnešný štart zaujímavý: namiesto ďalšej debaty o najlepšom modeli otvára otázku, ako vôbec férovo merať agentov ako celé produkčné systémy.

Zdroje

IBM a Hugging Face spúšťajú Open Agent Leaderboard pre celé agentické systémy

Ďalšie články k téme

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM