Tag

#benchmarky

Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 56 textov v archíve.

Výskum9. júna 2026

Štúdia testuje AI agentov na vedeckom potrubí od dát po objav v neurovede

Nový preprint hodnotí všeobecných kódovacích agentov na optogenetickom výskumnom potrubí s veľkými dátami. Výsledok je triezvy: agenti zvládajú niektoré samostatné kroky, ale zlyhávajú pri end-to-end vedeckom úsudku.

Výskum4. júna 2026

ServiceNow rozširuje EVA-Bench Data: hlasoví agenti dostávajú 213 testovacích scenárov

ServiceNow-AI zverejnil EVA-Bench Data 2.0 na Hugging Face. Súbor pokrýva tri domény, 121 nástrojov a 213 scenárov pre hodnotenie hlasových agentov, ktoré často zlyhávajú na detailoch konkrétnej domény.

Výskum2. júna 2026

Nový red-teaming pre medicínske LLM ukazuje, že priemer maskuje kritické zlyhania

Čerstvý arXiv preprint navrhuje viacdoménový red-teaming medicínskych veľkých jazykových modelov. Autori testovali 11 systémov na 690 klinicky motivovaných scenároch a upozorňujú, že vysoké priemerné skóre nemusí znamenať bezpečnosť v konkrétnych rizikových prípadoch.

Výskum28. mája 2026

ITBench-AA ukazuje, že agenti ešte nezvládajú podnikové incidenty spoľahlivo

Artificial Analysis a IBM spúšťajú benchmark ITBench-AA pre agentické úlohy v podnikovej IT prevádzke. Prvé výsledky sú triezve: najlepšie frontier modely zostávajú pod hranicou 50 percent.

Výskum26. mája 2026

Audit benchmarkov na detekciu depresie upozorňuje na krehké rebríčky a slabý prenos modelov

Nový preprint preveruje klinické interview benchmarky pre detekciu depresie štyrmi sondami. Ukazuje, že oficiálne splitovanie môže meniť poradie modelov, silné výsledky sa horšie prenášajú medzi dátovými sadami a textové signály sa správajú inak než audio.

Výskum26. mája 2026

InteractBind testuje, či modely liekov vidia aj miesto väzby, nielen pravdepodobnosť

Nový arXiv benchmark InteractBind posúva hodnotenie modelov pre proteín-ligand väzby od jednoduchého skóre k lokalizácii väzbových miest a typov interakcií.

Výskum25. mája 2026

Nový prehľad mapuje NLP zdroje pre hausštinu a fongbe

Preprint katalogizuje textové a rečové dáta, modely a benchmarky pre dve západoafrické jazyky. Ukazuje, že aj pri desiatkach miliónov hovoriacich zostáva praktická infraštruktúra pre NLP nerovnomerná a krehká.

Výskum22. mája 2026

Apple navrhuje VSAS-Bench pre vizuálnych asistentov, ktorí reagujú v reálnom čase

Nový benchmark od Apple skúša posunúť hodnotenie video-jazykových modelov od offline otázok k priebežným asistentom. Sleduje nielen správnosť odpovedí, ale aj načasovanie, stabilitu a schopnosť reagovať počas živého prúdu obrazov.

Výskum21. mája 2026

Artifact-Bench testuje, či multimodálne modely vidia chyby v AI videách

Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.

Výskum18. mája 2026

IBM a Hugging Face spúšťajú Open Agent Leaderboard pre celé agentické systémy

Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.

Výskum11. mája 2026

ABRA chce zmerať radiologických agentov v reálnom prehliadači snímok

Nový benchmark ABRA neposudzuje len to, či model vie odpovedať na otázku k obrázku, ale či sa dokáže orientovať v reálnom rádiologickom prostredí, prepínať série, hýbať sa po rezoch a vytvoriť štruktúrovaný výstup, aký by mal zmysel aj mimo laboratória.

Výskum8. mája 2026

FinAgent-RAG cieli na výkazy: agentický RAG má zlepšiť finančné otázky aj cenu výpočtu

Nový paper FinAgent-RAG tvrdí, že pri finančných dokumentoch nestačí jednorazové vyhľadanie a odpoveď. Autori stavajú na opakovanom dohľadávaní, písaní vykonateľného kódu pre aritmetiku a smerovaní výpočtu podľa náročnosti otázky.