AI výskum15. júna 20263 min čítania

ANTS upravuje výber tokenov pri dlhom uvažovaní jazykových modelov

Nový preprint navrhuje adaptívne jadrové orezávanie pre dlhé reťazce uvažovania. Metóda mení šírku výberu tokenov podľa neistoty modelu a hlási zisky najmä pri matematike a dodržiavaní inštrukcií.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#reasoning #LLM #arXiv #vzorkovanie #dekódovanie

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Čerstvý preprint na arXive sa venuje nenápadnej, ale veľmi praktickej časti generovania textu: tomu, ktoré kandidátne tokeny model pri každom kroku vôbec pustí do hry. Autor Ousmane Amadou Dia predstavuje metódu Adaptive Nucleus Truncation Sampling, skrátene ANTS, ktorá sa snaží nahradiť pevné prahy pri vzorkovaní adaptívnym riadením podľa aktuálnej neistoty modelu. Téma je dôležitá najmä pri dlhom uvažovaní, kde sa tisíce malých rozhodnutí môžu postupne zmeniť na úplne odlišnú trajektóriu riešenia.

Bežné postupy ako top-p, min-p alebo pevné top-n sigma orezávanie obmedzujú množinu tokenov podľa dopredu zvolených pravidiel. To pomáha potlačiť zjavne nevhodné pokračovania, no zároveň vzniká problém: rovnaký prah sa používa aj vtedy, keď je model veľmi istý, aj vtedy, keď je úloha nejasná alebo keď sa počas dlhého riešenia mení rozloženie pravdepodobností. ANTS sa tento pevný režim pokúša zmäkčiť. Namiesto jedného statického nastavenia volí okolie okolo najvyššieho logitu a jeho šírku prispôsobuje entropii, teda miere rozptýlenej neistoty v ďalšom kroku.

Metóda zároveň obsahuje bezpečnostnú poistku v podobe možnosti neorezávať vôbec. To je dôležité, pretože príliš agresívne zúženie kandidátov môže model zavrieť do lokálne presvedčivej, ale chybnej línie uvažovania. Pri dlhých matematických alebo programátorských odpovediach sa takýto skorý omyl často neskôr iba rozvíja. Adaptívny regulátor má preto nájsť kompromis medzi stabilitou a prieskumom: odstrániť šum, keď model jasne smeruje k riešeniu, ale nechať širší priestor v bodoch, kde je rozdelenie neisté.

V experimentoch autor uvádza test na riedkom modeli typu mixture-of-experts s celkovou veľkosťou 33 miliárd parametrov a približne 4 miliardami aktívnych parametrov. ANTS podľa abstraktu zlepšuje priemerný výkon oproti porovnávaným percentuálnym benchmarkom o 1,9 bodu pri rozpočte 8-tisíc tokenov, o 3,8 bodu pri 16-tisíc tokenoch a o 5,2 bodu pri 32-tisíc tokenoch. Najväčšie prínosy sa objavujú pri dodržiavaní inštrukcií a matematickom uvažovaní; pri IFBench sa spomína viac než desaťbodový zisk pri 32-tisíc tokenoch a pri AIME 2025 zlepšenie o sedem bodov.

Pre prax je zaujímavé, že článok nehovorí o novom tréningu modelu, ale o spôsobe dekódovania. Ak sa výsledky potvrdia aj mimo použitého nastavenia, podobné techniky by mohli byť relatívne lacnou cestou, ako zlepšiť dlhé odpovede bez zmeny váh modelu. To je atraktívne pre poskytovateľov inference, ktorí už dnes ladia teplotu, top-p a ďalšie parametre podľa typu úlohy, ceny a požadovanej spoľahlivosti. Adaptívne orezávanie by mohlo byť ďalším nástrojom v tejto prevádzkovej vrstve.

Zároveň treba čítať výsledky opatrne. Preprint zatiaľ opisuje konkrétnu modelovú a benchmarkovú konfiguráciu, nie univerzálny dôkaz, že ANTS zlepší každý dlhý výstup. Pri kódovaní autor upozorňuje na interakciu s rozpočtom generovania, čo naznačuje, že rovnaký mechanizmus môže v niektorých režimoch pomáhať a v iných vyžadovať ďalšie ladenie. Pri produkčných systémoch bude preto dôležité testovať nielen priemerné skóre, ale aj zlyhania, konzistenciu medzi behmi a citlivosť na typ promptu.

Dôležitý širší odkaz je, že kvalita uvažovania nie je určená iba tréningovými dátami a veľkosťou modelu. Stále väčšiu rolu hrá aj politika generovania: ako model skúma alternatívy, koľko neistoty si dovolí a kedy sa drží najpravdepodobnejšej cesty. Pri agentoch, matematických riešiteľoch a nástrojoch pre softvérové inžinierstvo môžu tieto detaily rozhodovať o tom, či systém nájde správne riešenie, alebo uviazne v presvedčivom omyle.

ANTS preto stojí za pozornosť aj vtedy, ak sa z neho nestane nový štandard. Ukazuje, že výskum dlhého uvažovania sa presúva od jednoduchého predlžovania kontextu k jemnejšiemu riadeniu samotného procesu dekódovania. Pre vývojárov modelových služieb to znamená ďalší priestor na experimenty, ale aj potrebu lepších evaluačných súprav, ktoré zachytia nielen výslednú odpoveď, ale aj stabilitu celého generovania.

Zdroje

ANTS upravuje výber tokenov pri dlhom uvažovaní jazykových modelov

Ďalšie články k téme

Preprint zovšeobecňuje rozhodovacie stromy cez Bregmanove divergencie

Transformer rieši otvorené dielenské plánovanie aj mimo tréningovej veľkosti

GPU workflow zrýchľuje tréning emulátorov pre hypersonické prúdenie