IBM a Hugging Face spúšťajú Open Agent Leaderboard pre celé agentické systémy
Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.
Tag
Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 35 textov v archíve.
Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.
Nový benchmark ABRA neposudzuje len to, či model vie odpovedať na otázku k obrázku, ale či sa dokáže orientovať v reálnom rádiologickom prostredí, prepínať série, hýbať sa po rezoch a vytvoriť štruktúrovaný výstup, aký by mal zmysel aj mimo laboratória.
Nový paper FinAgent-RAG tvrdí, že pri finančných dokumentoch nestačí jednorazové vyhľadanie a odpoveď. Autori stavajú na opakovanom dohľadávaní, písaní vykonateľného kódu pre aritmetiku a smerovaní výpočtu podľa náročnosti otázky.
Apple Machine Learning Research predstavilo benchmark SFI-Bench, ktorý testuje, či multimodálne modely chápu nielen polohu objektov, ale aj ich funkciu. Nový video set s viac než 1700 otázkami má odhaliť, ako ďaleko sú dnešné MLLM od prakticky použiteľnej priestorovej inteligencie pre agentov a robotiku.
Hugging Face mení pravidlá svojho Open ASR Leaderboardu. Nové kvalitné, ale neverejné testovacie datasety majú obmedziť takzvané benchmaxxing a lepšie odlíšiť modely, ktoré zvládajú reálnu konverzačnú reč, prízvuky a menej sterilné podmienky.
Nový text na Hugging Face upozorňuje, že hodnotenie modelov a agentov už nie je len doplnok po tréningu. Pri drahých benchmarkoch, opakovaných behoch a multimodelových porovnaniach sa z evaluácií stáva samostatný nákladový problém.
Nový benchmark AgentSearchBench tvrdí, že pri AI agentoch nestačí opis v katalógu. Rozhodovať má aj správanie pri vykonaní úlohy a schopnosť zvládnuť úlohy z otvoreného prostredia.
OpenAI uviedlo GPT-5.5 ako nový vlajkový model pre kódovanie, prácu s nástrojmi a dlhšie agentické workflow. Firma tvrdí, že novinka posúva kvalitu práce v Codexe aj ChatGPT, no pritom drží latenciu na úrovni GPT-5.4 a pridáva prísnejšie bezpečnostné testovanie.
Projekt QIMMA od Technology Innovation Institute tvrdí, že arabské benchmarky sú plné systematických chýb a že bez predbežnej validácie môžu leaderboardy skôr mýliť než presne merať kvalitu modelov.
Nová práca o multimodálnom claim extraction posúva fact-checking bližšie k realite sociálnych sietí, kde sa tvrdenia šíria v kombinácii textu a obrazov. Pre médiá, platformy aj obranné tímy ide o dôležitý stavebný blok proti modernej dezinformácii.
TII cez Hugging Face spustil QIMMA, arabský leaderboard, ktorý najprv validuje samotné benchmarky a až potom hodnotí modely. Signál je dôležitý pre firmy, ktoré chcú merať jazykové modely na menej pokrytých jazykoch oveľa spoľahlivejšie.
Paper „The Spectral Geometry of Thought“ tvrdí, že v skrytých aktiváciách transformerov existujú opakujúce sa spektrálne vzory rozlišujúce reasoning od faktickej odpovede a že môžu pomôcť odhadnúť správnosť ešte pred finálnym výstupom.