#SWE-bench

Všetky publikované články, v ktorých sa téma SWE-bench objavuje ako dôležitý kontext. Aktuálne 1 textov v archíve.

Výskum19. apríla 2026

AI21 varuje: „gold-like“ odpovede môžu skresľovať benchmarky coding agentov

AI21 opisuje nový typ skreslenia pri hodnotení coding agentov: posudzovateľ môže uprednostniť riešenie, ktoré vyzerá ako referenčná odpoveď, aj keď funkčne zlyhá. Téme dodáva váhu aj skoršie stanovisko OpenAI k obmedzeniam SWE-bench Verified.