Tag

#benchmarky

Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 56 textov v archíve.

Modely8. júla 2026

NVIDIA ladí Nemotron pre LangChain Deep Agents bez dotrénovania modelu

Nemotron 3 Ultra má v upravenom agentickom harness-e dosiahnuť špičku medzi otvorenými modelmi. Pointa nie je nový checkpoint, ale práca so systémovým prostredím okolo modelu.

Výskum8. júla 2026

OpenAI varuje, že SWE-Bench Pro má príliš veľa rozbitých úloh

OpenAI zverejnil audit benchmarku SWE-Bench Pro a tvrdí, že približne tretina úloh môže skresľovať hodnotenie kódovacích agentov. Pre vývojárov modelov je to pripomienka, že rast skóre nestačí bez kontroly kvality dát.

Modely7. júla 2026

LeRobot 0.6 pridáva svetové modely, benchmarky a rýchlejšie dáta pre robotiku

Hugging Face vydal LeRobot 0.6.0, veľkú aktualizáciu otvoreného robotického stacku. Nová verzia spája modely, ktoré si vedia predstavovať dôsledky akcií, jednotné benchmarky a praktickejšie nástroje pre tréning aj nasadenie politík na robotoch.

Výskum1. júla 2026

ScarfBench skúša, či agenti zvládnu migrovať enterprise Javu bez rozbitia správania

IBM Research a Hugging Face predstavili benchmark pre migrácie medzi Spring, Jakarta EE a Quarkus, ktorý hodnotí build, nasadenie aj testy namiesto porovnania s jedným referenčným diffom.

Výskum1. júla 2026

OpenAI pripravilo GeneBench-Pro pre náročnejšie testovanie vedeckých agentov

Nový benchmark má merať, či modely zvládnu nejednoznačné rozhodnutia v genomike a kvantitatívnej biológii, nielen mechanicky vykonať známy analytický postup.

Výskum29. júna 2026

Aloe-Vision otvára medicínske vision-language modely vrátane dát a benchmarku

Preprint Aloe-Vision predstavuje otvorenú rodinu medicínskych vision-language modelov v škálach 7B a 72B, tréningovú zmes Aloe-Vision-Data a benchmark CareQA-Vision. Dôležitý je najmä dôraz na reprodukovateľnosť a zistenie, že aj špecializované modely zostávajú zraniteľné voči zavádzajúcim vstupom.

Výskum24. júna 2026

Apple upozorňuje, že deväť LLM sudcov môže mať hodnotu iba dvoch hlasov

Výskum Apple Machine Learning Research meria, ako korelované chyby znižujú prínos panelov LLM sudcov. Zistenie je dôležité pre firmy, ktoré chcú hodnotiť modely väčšinovým hlasovaním viacerých modelov.

Produkty18. júna 2026

Hugging Face chce merať, či knižnice naozaj zvládnu používať AI agenti

Nový benchmark skúma nielen výsledok úlohy, ale aj cestu, počet krokov a správanie modelov pri práci s reálnymi nástrojmi a dokumentáciou.

Výskum18. júna 2026

Edge-TSR ukazuje, prečo benchmarky nestačia pri nepretržitej inferencii na okraji siete

Nový preprint opisuje systém Edge-TSR pre cestnú percepciu na Jetson Orin Nano. Sleduje aj javy, ktoré klasické benchmarky často nezachytia: kolísanie v čase, prehrievanie a stabilitu streamu.

Výskum16. júna 2026

Nová metóda hodnotí simultánny preklad reči pri dlhom súvislom hovorení

Preprint navrhuje praktické hodnotenie long-form simultánneho speech-to-speech prekladu. Namiesto krátkych segmentov sleduje kvalitu a latenciu v dlhom prúde reči, čo lepšie zodpovedá reálnym stretnutiam a prednáškam.

Výskum12. júna 2026

AfriSUD pridáva syntaktické treebanky pre deväť afrických jazykov

Nový arXiv preprint predstavuje AfriSUD, kolekciu syntakticky anotovaných dát pre deväť afrických jazykov. Práca je dôležitá pre hodnotenie NLP modelov mimo jazykov, ktoré dominujú dnešným benchmarkom.

Výskum10. júna 2026

Audit medicínskych VLM benchmarkov našiel stopy kontaminácie v tréningových dátach

Preprint preveruje verejné medicínske vision-language benchmarky a varuje, že časť výsledkov môže byť ovplyvnená prekryvom s dátami dostupnými pri predtréningu.