Výskum
Autor: Redakcia AI Feed
Nový benchmark tlačí na multimodálnu opatrnosť: LVLM majú radšej priznať neistotu
Práca o VLM-DeflectionBench ukazuje, že veľké vision-language modely často radšej sebavedomo odpovedajú, než by priznali nedostatok dôkazov. To je dôležité preto, že v multimodálnych workflowoch dnes nestačí merať len presnosť; rovnako dôležité je vedieť, kedy má model odmietnuť odpoveď alebo si vypýtať lepšie podklady.