AWS pridáva testovací harness pre hlasových agentov Nova Sonic
Otvorený Nova Sonic Test Harness má automatizovať viac-kolové testovanie hlasových agentov, hodnotenie odpovedí a odhaľovanie nesúladu medzi textom a zvukom.
Tag
Všetky publikované články, v ktorých sa téma evaluácie objavuje ako dôležitý kontext. Aktuálne 8 textov v archíve.
Otvorený Nova Sonic Test Harness má automatizovať viac-kolové testovanie hlasových agentov, hodnotenie odpovedí a odhaľovanie nesúladu medzi textom a zvukom.
Amazon Bedrock AgentCore pridáva workflow pre správu evaluačných datasetov, aby agenti mali stabilné regresné testy aj pri rýchlom vývoji v produkcii.
Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.
AWS ukazuje MLLM-as-a-judge pre úlohy, kde model odpovedá na obrázky, dokumenty alebo grafy. Cieľom je overovať, či textový výstup naozaj sedí so zdrojovým obrazom.
Štúdia sledujúca viac než 25-tisíc behov agentických systémov tvrdí, že dnešní AI „vedci“ síce vedia vykonávať workflow, no zriedka postupujú spôsobom, ktorý by zodpovedal skutočne vedeckému uvažovaniu.
AI21 tvrdí, že budúcnosť agentov nie je v jednom veľkom black-boxe, ale v modulárnom rozdelení na reasoning, plánovanie a exekúciu. Takáto architektúra má zlepšiť auditovateľnosť, diagnostiku chýb aj praktické ladenie enterprise workflow.
AI21 opisuje nový typ skreslenia pri hodnotení coding agentov: posudzovateľ môže uprednostniť riešenie, ktoré vyzerá ako referenčná odpoveď, aj keď funkčne zlyhá. Téme dodáva váhu aj skoršie stanovisko OpenAI k obmedzeniam SWE-bench Verified.
Práca o VLM-DeflectionBench ukazuje, že veľké vision-language modely často radšej sebavedomo odpovedajú, než by priznali nedostatok dôkazov. To je dôležité preto, že v multimodálnych workflowoch dnes nestačí merať len presnosť; rovnako dôležité je vedieť, kedy má model odmietnuť odpoveď alebo si vypýtať lepšie podklady.