aifeed.skAI Feed

Tag

#benchmarky

Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 35 textov v archíve.

Nová práca ukazuje, že LLM stále slabnú pri abstraktnom význame
Výskum

Nová práca ukazuje, že LLM stále slabnú pri abstraktnom význame

Práca na arXive tvrdí, že aj silné jazykové modely vrátane GPT-4o majú väčší problém s abstraktným významom, než sa často predpokladá. Výsledok je dôležitý najmä preto, že odhaľuje slabinu, ktorú nezakryjú bežné benchmarky ani všeobecný dojem z plynulého textu.

VAKRA ukazuje, kde sa enterprise AI agenti lámu medzi API a dokumentmi
Výskum

VAKRA ukazuje, kde sa enterprise AI agenti lámu medzi API a dokumentmi

IBM Research a Hugging Face rozobrali benchmark VAKRA, ktorý preveruje agentov v prostrediach bližších podnikovým workflowom než klasickým demo úlohám. Výsledok je nepríjemný: aj silné modely často zlyhávajú práve v reťazení nástrojov, mapovaní schém a práci s viacerými zdrojmi naraz.