AI modely28. mája 20263 min čítania

Hugging Face zmenšuje prenos váh pri RL tréningu z gigabajtov na megabajty

Nový mechanizmus Delta Weight Sync v TRL posiela medzi trénerom a inferenčným serverom iba zmenené časti váh. Cieľom je lacnejší a praktickejší asynchrónny RL tréning veľkých modelov.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Hugging Face Blog

#open-source #vLLM #Hugging Face #reinforcement learning #tréning modelov #TRL

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI modely a opiera sa o 3 zdroje.

Hugging Face opisuje v novom technickom blogu problém, ktorý sa pri tréningu jazykových modelov často skrýva za slovom infraštruktúra. Pri asynchrónnom posilňovanom učení musí tréningový proces pravidelne odovzdávať aktualizované váhy inferenčnému serveru, ktorý generuje nové výstupy. Pri menšom modeli ide o gigabajty dát, pri veľmi veľkých modeloch môže ísť o stovky gigabajtov až terabajt na každý krok. Ak sa takýto prenos opakuje často, rýchlo sa stane úzkym hrdlom bez ohľadu na výkon GPU.

Novinka Delta Weight Sync v TRL využíva jednoduché pozorovanie: medzi dvoma po sebe idúcimi krokmi optimalizácie zostáva drvivá väčšina váh bitovo rovnaká. Blog uvádza, že pri experimentoch bolo približne 99 percent hodnôt bf16 identických a ani v najhoršom prípade neklesol podiel pod 98 percent. Namiesto presúvania celého checkpointu preto systém vytvorí riedky súbor so zmenenými prvkami a pošle iba rozdiel.

Technicky ide o kombináciu viacerých častí ekosystému Hugging Face. TRL na strane trénera vytvorí masku zmenených váh, zabalí ich do formátu safetensors a uloží ich do Hub Bucketu. Inferenčný server vLLM si následne stiahne iba tento delta súbor a aplikuje ho. Autori uvádzajú príklad modelu Qwen3-0.6B, pri ktorom sa prenos na jeden krok znížil z približne 1,2 GB na 20 až 35 MB. Pri väčších modeloch je relatívny prínos ešte dôležitejší, pretože úplný prenos váh rastie s veľkosťou modelu.

Najzaujímavejšie je, že cieľom nie je iba lokálna optimalizácia v jednom klastri. Hugging Face opisuje aj rozdelené nastavenie, v ktorom tréner beží na jednom stroji, vLLM v Hugging Face Space, prostredie pre úlohu v ďalšom Space a váhy prechádzajú cez jeden Hub Bucket. To znižuje nároky na spoločný súborový systém, RDMA sieť alebo špeciálnu infraštruktúru. Pre menšie tímy môže byť takýto model nasadenia rozdielom medzi experimentom, ktorý je iba teoreticky možný, a workflow, ktoré sa dá reálne spustiť.

Delta Weight Sync je dôležitý aj preto, že posúva diskusiu o tréningu z čistej výpočtovej kapacity na dátový pohyb. V posledných rokoch sa veľa pozornosti sústredilo na optimalizáciu kernelov, kvantizáciu a lepšie plánovanie inferencie. Pri RL tréningu však môže byť rovnako drahé čakať, kým sa nové váhy dostanú tam, kde sa majú používať. Ak počas prenosu inferenčný server negeneruje nové tokeny, vzniká čas, v ktorom drahý hardvér stojí.

Pre vývojárov otvorených tréningových stackov je prínos dvojitý. Po prvé, znižuje sa náklad na experimenty, pri ktorých sa model učí z interakcie s prostredím a treba často obnovovať inferenčnú časť. Po druhé, vzniká čistejšie rozhranie medzi trénerom a inferenčným backendom. Tím môže meniť prostredie, tréningovú stratégiu alebo umiestnenie vLLM bez toho, aby musel presúvať celý systém do jedného monolitického klastra.

Samotní autori zároveň nepôsobia dojmom, že problém je uzavretý. Blog spomína ďalšie otvorené práce okolo robustnosti, všeobecnejšej podpory a praktického prevádzkovania. Delta prenos je silná optimalizácia, ale musí sa dobre integrovať s checkpointovaním, obnovou po chybách a sledovaním konzistencie váh. V produkčnom tréningu je chyba v synchronizácii horšia než pomalý prenos, pretože môže pokaziť výsledky bez okamžitého viditeľného signálu.

Pre širší ekosystém je správa zrozumiteľná: škálovanie AI už nie je iba otázka väčších modelov, ale aj lacnejšieho pohybu stavov medzi komponentmi. Ak sa podobné techniky stanú bežnou súčasťou TRL a vLLM, asynchrónny RL tréning môže byť dostupnejší pre viac laboratórií, startupov a výskumných tímov. Menej prenesených bajtov znamená menej čakania, lacnejšie experimenty a viac priestoru skúšať metódy, ktoré by inak narazili na infraštruktúrny účet.

Ak sa tento prístup rozšíri aj na väčšie modely a bežné tréningové recepty, môže zmeniť ekonomiku experimentovania. Výskumný tím už nebude musieť navrhovať celý systém okolo prenosu obrovských checkpointov a môže viac pozornosti venovať kvalite odmien, prostredí a stabilite samotného učenia.

Zdroje

Hugging Face zmenšuje prenos váh pri RL tréningu z gigabajtov na megabajty

Ďalšie články k téme

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

Google vydáva Gemini 3.6 Flash a rýchlejší Flash-Lite pre agentické workflowy

Hugging Face ukazuje Grabette, otvorený zberač dát pre učenie robotov