Výskum
Autor: Redakcia AI Feed
AI21 varuje: „gold-like“ odpovede môžu skresľovať benchmarky coding agentov
AI21 opisuje nový typ skreslenia pri hodnotení coding agentov: posudzovateľ môže uprednostniť riešenie, ktoré vyzerá ako referenčná odpoveď, aj keď funkčne zlyhá. Téme dodáva váhu aj skoršie stanovisko OpenAI k obmedzeniam SWE-bench Verified.