Curation-Bench skúša, či všeobecní agenti zvládnu kurátorstvo tréningových dát
Nový preprint Curation-Bench testuje, či môžu všeobecní kódovací agenti automatizovať opakovaný cyklus výberu a úprav tréningových dát. Výsledok je povzbudivý, ale ukazuje aj jasnú hranicu: bez metodického lešenia agenti skôr ladia lokálne varianty než robia výskum.