AI výskum24. apríla 20263 min čítania

IBM: mid-training rozhoduje o tom, či sa model naučí naozaj uvažovať

IBM tvrdí, že medzistupeň medzi pretréningom a post-tréningom nie je kozmetická optimalizácia. V stovkách experimentov mal zásadne pomôcť pri reasoning úlohách.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: IBM Research

#IBM #LLM #reasoning #tréning modelov #open-source

IBM zverejnil výskum, ktorý ide priamo do jednej z kľúčových otázok dnešných „reasoning“ modelov: čo vlastne spôsobilo, že sa veľké jazykové modely v posledných generáciách zlepšili v matematike, kóde a dlhších postupoch riešenia? Podľa novej práce nie je odpoveď iba v lepšom reinforcement learningu po nasadení alebo vo väčšom pretréningu. Rozhodujúcu rolu má medzivrstva označovaná ako mid-training, teda tréningový krok medzi základným učením na obrovskom korpuse a neskorším dolaďovaním správania.

IBM opisuje mid-training ako etapu, v ktorej model dostáva cielenejší mix dát z matematiky, programovania a vedeckého uvažovania, často po tom, čo už zvláda dlhší kontext. Práve v tejto fáze sa podľa autorov formuje schopnosť modelu „rozkladať“ problém na kroky a nevypľuť iba krátku odpoveď. Firma tvrdí, že v praxi nejde o zameniteľný krok: ak sa rovnaké znalosti presunú až do post-tréningu cez reinforcement learning, výsledky sú citeľne slabšie.

Najsilnejšia časť práce je rozsah kontrolovaných experimentov. IBM uvádza viac než 500 behov naprieč viacerými otvorenými modelovými rodinami vrátane Granite, Llama, Mistral a Nemotron-H. Testované modely mali od 3 do 24 miliárd parametrov a výskumníci ich porovnávali na šiestich reasoning benchmarkoch. Podľa firmy optimálny mid-training zvýšil celkový reasoning výkon približne troj- až štvornásobne, pričom zároveň nevymazal vedomosti získané počas pôvodného pretréningu.

Zaujímavé sú konkrétne čísla pri vedeckom a matematickom uvažovaní. IBM píše, že pridanie vedeckých dát do mid-trainingu odomklo na benchmarku GPQA-Diamond nárast o 17 až 28 bodov oproti modelom, ktoré dostali rovnaké dáta až neskôr počas fine-tuningu alebo RL. Pri MATH500 zasa firma ukazuje, že modely po mid-trainingu nezačali len odpovedať presnejšie, ale aj generovať podstatne dlhšie a explicitnejšie medzikroky. Inými slovami, zmena sa neprejavila iba v skóre, ale aj v štýle riešenia.

Práve to je pre trh dôležitá správa. V posledných mesiacoch sa veľká časť diskusie o reasoning modeloch točí okolo test-time compute, dlhších chain-of-thought postupov a silnejšieho post-tréningu. IBM však vracia pozornosť k menej viditeľnej vrstve pipeline. Ak má firma pravdu, časť dnešného náskoku najlepších modelov nepochádza z „magického RL“, ale z toho, že model ešte pred finálnym dolaďovaním dostal správne zvolený medzikrok so správnou zmesou dát.

To má praktické dôsledky aj pre open-source komunitu a menšie tímy. Mid-training je síce ďalší náklad, no podľa IBM môže byť efektívnejší než snaha dohnať všetko agresívnym post-tréningom. Pre tvorcov otvorených modelov to znamená, že cesta k silnejšiemu reasoning výkonu nemusí viesť len cez drahšie RL pipeline, ale aj cez lepšie navrhnutý stred celej tréningovej schémy. Ak sa tento pohľad potvrdí, bude sa viac hovoriť o kvalite dát a načasovaní jednotlivých fáz, nie iba o samotnej veľkosti modelu.

IBM zároveň využíva výsledok strategicky. Výslovne píše, že pipeline z práce chce použiť v ďalších modeloch rodiny Granite a že časť postupu otvorila komunite. To je dôležité, pretože podobné tvrdenia bývajú často ťažko overiteľné, keď sú celé uzamknuté v proprietárnej infraštruktúre. Tu má trh aspoň čiastočnú šancu porovnať, či sa deklarované prínosy prejavia aj v ďalších otvorených modeloch a nezostanú len v internom benchmarkingu.

Samotná práca však neprináša univerzálny recept na „rozum“. Hovorí skôr to, že architektúra tréningového procesu záleží viac, než sa donedávna pripúšťalo. Pri budovaní modelov pre kód, vedu, financie či právnu analytiku môže byť kritické, kedy presne sa do systému dostane špecializované uvažovanie a aký typ dát ho naučí rozvíjať. V tomto zmysle je mid-training skôr infraštruktúrna disciplína než marketingový názov novej schopnosti.

Pre používateľov to môže mať nenápadný, ale dôležitý dopad. Ak dodávatelia modelov začnú túto vrstvu lepšie zvládať, rozdiel sa neprejaví len v benchmarkoch, ale aj v tom, ako model pracuje s chybami, ako spoľahlivo rozkladá zložité zadania a či si počas dlhšej odpovede udrží konzistentnú logiku. IBM tak do debaty posúva jednoduchú tézu: ak chcete model, ktorý naozaj premýšľa v krokoch, nestačí len viac dolaďovať výstup. Treba správne vybudovať to, čo sa deje medzi pretréningom a finálnym zarovnaním.

Zdroje

IBM: mid-training rozhoduje o tom, či sa model naučí naozaj uvažovať

Ďalšie články k téme

Apple chce modelovať pohyb bez generovania celého videa

Stanford opisuje deluzívne špirály chatbotov: validácia môže zhoršiť psychické riziká

Nový kernelový prístup chce zlepšiť spoľahlivosť viacrozmerných predpovedí