AI evals sa menia na nový výpočtový strop vývoja modelov
Nový text na Hugging Face upozorňuje, že hodnotenie modelov a agentov už nie je len doplnok po tréningu. Pri drahých benchmarkoch, opakovaných behoch a multimodelových porovnaniach sa z evaluácií stáva samostatný nákladový problém.
Autor: Redakcia AI Feed
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- Hugging Face
Debata o nákladoch v AI sa dlhé mesiace točila hlavne okolo tréningu a inferencie. Nový príspevok na Hugging Face však upozorňuje na tretiu položku, ktorá rastie tak rýchlo, že začína brzdiť celý vývojový cyklus: evaly. Teda systematické hodnotenie modelov, agentov, scaffoldov a benchmarkov, bez ktorého sa dnes už seriózny výskum ani produktové porovnanie nezaobídu.
Autori zhromažďujú niekoľko čísel, ktoré naznačujú, že nejde o okrajový problém. Holistic Agent Leaderboard podľa nich minul približne 40-tisíc dolárov na 21 730 agentických behov naprieč deviatimi modelmi a deviatimi benchmarkmi. Jediný beh benchmarku GAIA na frontier modeli môže stáť takmer 2 829 dolárov ešte pred započítaním cache. Keď sa do hry pridajú opakované pokusy pre štatistickú spoľahlivosť, rôzne scaffoldy a viacero verzií modelu, evaluácia sa z doplnku mení na plnohodnotnú rozpočtovú položku.
Text zároveň pripomína, že problém nezačal až s agentmi. Už benchmark HELM od Stanford CRFM ukázal, že široké a metodicky poctivé porovnávanie jazykových modelov môže byť výpočtovo aj finančne veľmi drahé. IBM neskôr pri vlastnej práci na zmenšených benchmarkoch upozorňovalo, že samotné spustenie HELM na jednom modeli môže spotrebovať rádovo tisíce GPU hodín. Pri rodinách modelov, kde sa testujú desiatky až stovky checkpointov počas tréningu, sa evaly násobia a v určitých režimoch môžu presiahnuť aj cenu samotného pretrénovania.
To je zásadná zmena optiky. Kým pri klasických leaderboardoch sa náklad často bral ako jednorazová cena za „oficiálne skóre“, v dnešných agentických a reasoning scénaroch sa benchmark stáva súčasťou iterácie. Vývojár nechce vedieť len finálne číslo, ale aj to, ako sa mení výkon pri inom tool-use scaffolde, inom plánovaní, inom inferenčnom rozpočte alebo inom nastavení bezpečnostných pravidiel. Každá takáto zmena však vyžaduje ďalšie spustenia a zvyšuje účet.
Zaujímavý je aj metodický odkaz článku: pri časti statických benchmarkov už dnes existujú techniky, ako znížiť cenu bez dramatickej straty informačnej hodnoty. Patria sem menšie reprezentatívne podmnožiny úloh, coarse-to-fine evaluácie či prístupy typu Flash-HELM a tinyBenchmarks. Problém je, že pri agentických benchmarkoch takáto kompresia funguje horšie. Interakcia s prostredím, stochasticita, rozdielne scaffoldy a vysoká citlivosť na implementačné detaily znamenajú, že lacná skratka nemusí zachovať poradie modelov ani reálnu vypovedaciu hodnotu.
Pre open-source komunitu je to citlivá správa. Ak sa evaly stanú príliš drahé, schopnosť tvrdiť niečo silné o kvalite modelov sa opäť sústredí do rúk najväčších laboratórií a cloudových hráčov. Menší výskumný tím si môže ešte dovoliť model natrénovať alebo doladiť, no nebude mať rozpočet na dôkladné porovnanie cez moderné agentické benchmarky. To skresľuje trh, lebo viditeľnosť a dôveryhodnosť získajú najmä tí, ktorí si vedia dovoliť aj drahé meranie.
Z pohľadu podnikov je dôsledok podobne praktický. Keď firma zavádza interného agenta, nestačí poznať demo úspešnosť na jednom datasete. Potrebuje merať stabilitu, cenu, latenciu, odolnosť voči chybám nástroja aj správanie pri hraničných vstupoch. Práve tieto „neviditeľné“ evaly však bývajú najdrahšie, lebo sa musia opakovať po každej zmene modelu, promptu či integračnej vrstvy. Náklad na evaluáciu tak začína konkurovať samotnému deployu.
Hugging Face preto správne posúva tému od obdivu k novým benchmarkom k otázke, kto si ich bude vedieť dlhodobo dovoliť. Ak sa má ekosystém vyhnúť stavu, v ktorom sú špičkové evaly výsadou niekoľkých bohatých aktérov, bude musieť investovať nielen do lepších modelov, ale aj do lacnejších, reprodukovateľných a informačne hustých spôsobov merania. Inak sa z benchmarkov stane úzke hrdlo, ktoré brzdí výskum aj produktové nasadenie rovnako spoľahlivo ako nedostatok GPU.
Najsilnejší odkaz dnešného textu teda nie je v jednom dramatickom čísle, ale v posune celej disciplíny. V AI už nejde len o to, kto vie model natrénovať alebo sprístupniť cez API. Stále dôležitejšie bude, kto ho dokáže rozumne, transparentne a finančne udržateľne otestovať. A práve tam sa môže rozhodovať, či budú ďalšiu generáciu agentov určovať otvorené benchmarky, alebo len tí, ktorí zvládnu platiť ich prevádzku vo veľkom.
Zdroje