Tag

#evaluácie

Všetky publikované články, v ktorých sa téma evaluácie objavuje ako dôležitý kontext. Aktuálne 17 textov v archíve.

Výskum20. júla 2026

Preprint navrhuje bezpečnejšie spájanie štatistických dôkazov pri závislých dátach

Nová práca na arXive rieši, ako kombinovať viac štatistických testov v situáciách, kde medzi dátami nepoznáme zložité závislosti. Pre AI je to dôležité najmä pri hodnotení modelov, auditoch a sekvenčných experimentoch, kde zle kalibrované dôkazy môžu viesť k príliš sebavedomým záverom.

Výskum7. júla 2026

FlowEval od Apple meria, či AI generované rozhranie zvládne reálne používateľské cesty

Apple opisuje referenčný rámec FlowEval, ktorý porovnáva navigačné stopy z reálnych webov s trasami v generovaných rozhraniach a má škálovať hodnotenie UI agentov bez ručného testovania každého prípadu.

Výskum3. júla 2026

Dynamic-SAGE meria pri video agentoch presnosť aj cenu nástrojov naraz

Nový preprint navrhuje párovaný audit pre agentické VideoQA systémy. Dynamic-SAGE zvyšuje presnosť o 7,5 bodu a znižuje viditeľné volania nástrojov, no zároveň ukazuje, že tokeny a náklady môžu rásť.

Produkty3. júla 2026

PydanticAI 2.4 pridáva hodnotenie agentov a prísnejšie hranice pre nahrané súbory

Nová verzia PydanticAI 2.4 rozširuje evaluačnú vrstvu pre agentov: pribudli GEval, metriky pre LLM sudcov aj spanové kontroly nástrojov. Zároveň oddeľuje bezpečnostné povolenie nahraných súborov od ich zobrazenia v AG-UI.

Výskum30. júna 2026

Hugging Face prepája modelové karty s tisíckami výsledkov Every Eval Ever

Hugging Face a EvalEval zjednocujú komunitné hodnotenia modelov: výsledky sa majú zobrazovať priamo na modelových kartách a spätne odkazovať na plné záznamy EEE.

Produkty25. júna 2026

Patronus AI stavia testovanie agentov na digitálne svety

Patronus AI oznámil 50-miliónové financovanie a prvý náhľad Digital World Model. Firma chce posunúť evaluácie agentov od statických datasetov k simulovaným digitálnym prostrediam, kde sa dajú skúšať dlhé pracovné postupy.

Výskum12. júna 2026

AllenAI otvára olmo-eval, pracovný stôl na priebežné hodnotenie modelov

Nový open-source balík olmo-eval cieli na hodnotenie modelov počas ich vývoja, nie až po finálnom vydaní. Pre tímy okolo otvorených modelov je to signál, že evals sa posúvajú bližšie k samotnému tréningu.

Výskum12. júna 2026

Preprint sprísňuje testovanie detektorov lží v jazykových modeloch

Nová práca upozorňuje, že detektory lží pre veľké jazykové modely sa nedajú hodnotiť iba na modeloch, ktoré sa naoko správajú nepravdivo. Autori preto navrhujú testbedy, kde je najprv overené, čomu model skutočne verí.

Produkty11. júna 2026

AWS otvorilo Agent-EvalKit na systematické testovanie AI agentov

AWS predstavuje open-source nástroj Agent-EvalKit, ktorý má presunúť hodnotenie agentov priamo do vývojového prostredia a sledovať nielen výslednú odpoveď, ale aj nástroje, dáta a kroky počas behu.

Produkty8. júna 2026

AWS pridáva testovací harness pre hlasových agentov Nova Sonic

Otvorený Nova Sonic Test Harness má automatizovať viac-kolové testovanie hlasových agentov, hodnotenie odpovedí a odhaľovanie nesúladu medzi textom a zvukom.

Produkty28. mája 2026

AWS chce z testovacích prípadov pre agentov spraviť verziované datasety

Amazon Bedrock AgentCore pridáva workflow pre správu evaluačných datasetov, aby agenti mali stabilné regresné testy aj pri rýchlom vývoji v produkcii.

Výskum21. mája 2026

Artifact-Bench testuje, či multimodálne modely vidia chyby v AI videách

Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.