AI evals sa menia na nový výpočtový strop vývoja modelov
Nový text na Hugging Face upozorňuje, že hodnotenie modelov a agentov už nie je len doplnok po tréningu. Pri drahých benchmarkoch, opakovaných behoch a multimodelových porovnaniach sa z evaluácií stáva samostatný nákladový problém.