Nová štúdia audituje benchmarky LLM pomocou teórie odpovedí na položky
Čerstvý preprint ukazuje, že benchmarky pre jazykové modely môžu prenášať chybné alebo nejednoznačné štítky do ďalších testov. Autori používajú štatistickú metódu IRT a odpovede 114 modelov na odhad, kde sú položky pravdepodobne nesprávne označené.