AI výskum15. apríla 20262 min čítania

IBM vysvetľuje, prečo reasoning modely potrebujú mid-training medzi pretrainingom a post-trainingom

Nový text IBM Research tvrdí, že rozhodujúci skok v reasoningu neprichádza iba z RL alebo inštrukčného ladenia, ale z medzifázy mid-trainingu zameranej na matematiku, kód a vedu.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: IBM Research

#výskum #LLM #mid-training #reasoning #IBM

IBM Research otvorilo tému, ktorá sa v posledných mesiacoch v AI priemysle často spomína, no zriedka sa vysvetľuje do hĺbky: prečo sa moderné reasoning modely zlepšili tak výrazne práve po zavedení medzifázy medzi pretrainingom a post-trainingom. IBM túto vrstvu označuje ako mid-training a tvrdí, že nejde o drobný detail v tréningovej pipeline, ale o jeden z hlavných dôvodov, prečo sa modely začali lepšie orientovať v matematike, kóde a zložitejšom analytickom rozhodovaní.

Firma opisuje klasický recept na veľký jazykový model pomerne jednoducho: najprv rozsiahly pretraining na veľkých objemoch textu, potom post-training, ktorým sa model učí odpovedať užitočnejšie a bezpečnejšie. Mid-training do tohto toku vstupuje ako špecializovaná fáza, v ktorej sa model cielene tlačí do domén, kde nestačí len napodobňovať povrch jazyka. Ide najmä o úlohy, pri ktorých je potrebné držať dlhší reťazec krokov, hľadať chyby v kóde alebo pracovať so štruktúrovaným vedeckým materiálom.

Praktický význam je veľký. Keď sa dnes hovorí o reasoning modeloch, veľká časť debaty sa sústreďuje na inference-time techniky, na reinforcement learning alebo na to, ako dobre model vysvetľuje svoj postup. IBM však naznačuje, že skok v schopnostiach sa začína skôr, ešte pred finálnym dolaďovaním. Mid-training podľa firmy systematicky mení to, aké reprezentácie si model vytvára a v akých typoch úloh je schopný neskôr efektívnejšie generalizovať.

To je dôležité aj pre open-source ekosystém. Ak sa ukáže, že práve táto medzifáza je kľúčom k lepšiemu reasoningu, súboj sa nebude viesť len o veľkosť datasetov a počet GPU hodín, ale aj o to, kto vie rozumne navrhnúť kurikulum pre mid-training. V praxi to môže znamenať viac zamerania na kvalitné matematické a kódové dáta, lepšiu filtráciu vedeckého obsahu a presnejšie rozhodnutia o tom, kedy model prepnúť z univerzálneho pretrainingu na špecializovanejšie učenie.

IBM zároveň pripomína, že reasoning nie je len marketingová nálepka. Modely, ktoré majú odhaľovať chyby v zmluvách, analyzovať finančné dokumenty alebo pracovať s komplexnými kódovými bázami, potrebujú oveľa viac než len plynulý jazykový výstup. Potrebujú stabilnejšie vnútorné štruktúry pre viac-krokové uvažovanie. Práve preto môže byť mid-training pre enterprise nasadenia rovnako dôležitý ako neskoršie zarovnanie modelu na užívateľské preferencie.

Pre AI trh je to signál, že budúca konkurencia sa môže posunúť od jednoduchého porovnávania benchmarkových čísel k podrobnejšiemu skúmaniu tréningových pipeline. Firmy a open-source tímy, ktoré pochopia, ako čo najefektívnejšie využiť mid-training, môžu získať náskok aj bez toho, aby vždy trénovali najväčší model na trhu. Ak sa tento trend potvrdí aj v ďalších štúdiách, mid-training sa z nenápadného interného kroku zmení na jednu z najdôležitejších strategických tém v súčasnom vývoji reasoning modelov.

Z pohľadu praxe to môže ovplyvniť aj to, ako budú firmy hodnotiť nové open modely a dodávateľov infraštruktúry. Nestačí sa pýtať, aký veľký model kto vytrénoval; čoraz dôležitejšie bude vedieť, na akom kurikule sa model učil uvažovať, v ktorých doménach sa jeho reasoning zlepšil a či ide o robustné zlepšenie alebo len o úzky benchmarkový trik. Aj preto je IBM text zaujímavý: presúva pozornosť z finálneho skóre späť k samotnému procesu výroby schopností.

Zdroje

IBM Research: How an extra training step can unlock AI’s reasoning power

Zdroje

IBM Research: How an extra training step can unlock AI’s reasoning power

IBM vysvetľuje, prečo reasoning modely potrebujú mid-training medzi pretrainingom a post-trainingom

Zdroje

Ďalšie články k téme

Transliterácia sa vracia do hry: nový prehľad tvrdí, že LLM stále narážajú na bariéru písma

AlphaEarth naznačuje, že agentické environmentálne AI bude stáť skôr na retrievale než na vektorovej mágii

EasyRL sľubuje silnejšie post-tréningové učenie aj s malým objemom označených dát