aifeed.skAI Feed
AI novinky3 min čítania

OpenAI otvára MRC, sieťový protokol pre tréning veľkých AI klastrov

OpenAI zverejnila špecifikáciu MRC, vlastného sieťového protokolu pre veľké tréningové klastre. Cieľom je znížiť výpadky, rozložiť prevádzku medzi viac ciest a škálovať infraštruktúru pre frontier modely s menšou energetickou aj prevádzkovou režiou.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
AI Feed

OpenAI otvorila ďalšiu menej viditeľnú, ale pre celý ekosystém kľúčovú vrstvu svojho stacku. Namiesto nového modelu tentoraz zverejnila MRC, teda Multipath Reliable Connection, sieťový protokol navrhnutý pre tréning veľkých AI klastrov. Firma tvrdí, že pri prevádzke superpočítačov pre frontier modely už nestačí len rýchly hardvér a veľa GPU. Rovnako rozhodujúce je, či sa dá medzi akcelerátormi presúvať obrovské množstvo dát bez toho, aby jediný pomalý prenos zastavil celý tréningový krok.

Podstata problému je jednoduchá: pri synchronnom tréningu spolupracujú tisíce až desaťtisíce GPU naraz a čakajú na najpomalší paket. Ak sa niekde objaví preťaženie, výpadok linky alebo nestabilné smerovanie, dôsledkom nie je drobná odchýlka, ale reálny prestoj drahej výpočtovej kapacity. OpenAI preto opisuje sieť ako jeden z hlavných limitov ďalšieho škálovania. MRC má tento limit posunúť tým, že prenosy nerozkladá po jednej ceste, ale ich pakety rozstrekuje naprieč mnohými trasami v paralelných sieťových rovinách.

Technicky ide o rozšírenie prístupu RDMA over Converged Ethernet, ktoré OpenAI kombinuje so source routingom cez SRv6. Firma tvrdí, že tým získava tri výhody naraz. Prvou je vyššia odolnosť voči zlyhaniam, pretože výpadok jednej cesty nemusí zhodiť celý tréningový job. Druhou je lepšie rozloženie záťaže, keďže spojenie vie využiť veľké množstvo paralelných trás a priebežne vymieňať tie, ktoré začínajú byť preťažené. Treťou je jednoduchšia topológia, v ktorej sa vysoká priepustnosť skladá z viacerých menších liniek namiesto jednej masívnej cesty.

OpenAI tvrdí, že pri takejto architektúre možno z jedného 800-gigabitového rozhrania spraviť viac samostatných 100-gigabitových spojov a vybudovať viac rovnobežných rovín. Výsledok má byť lacnejší, úspornejší a zároveň pružnejší pri poruchách. Pre tréning veľkých modelov je dôležité najmä to, že sieť nemusí po každom probléme prepočítavať smerovanie tak, aby to spôsobilo dlhé zaváhanie celej úlohy. MRC namiesto toho rýchlo prestane používať podozrivú cestu, znovu odošle chýbajúce pakety a priebežne testuje, či sa daná vetva zotavila.

Zaujímavý je aj praktický rozmer zverejnenia. OpenAI MRC nepredstavuje len ako interné vylepšenie, ale ako špecifikáciu odovzdanú do Open Compute Projectu. Tým vysiela signál, že pri stavbe AI infraštruktúry chce presadzovať otvorenejšie priemyselné štandardy, nie iba uzavreté optimalizácie viazané na jeden cloud alebo jedného výrobcu. V texte priamo uvádza, že na návrhu spolupracovali AMD, Broadcom, Intel, Microsoft a NVIDIA, čo z MRC robí tému presahujúcu hranice jednej firmy.

Dôležité je aj to, kde už má byť MRC nasadené. OpenAI píše, že protokol beží na jej najväčších klastroch s NVIDIA GB200, vrátane infraštruktúry v Oracle Cloud Infrastructure a v superpočítačoch Microsoftu. Ak sa tieto tvrdenia v praxi potvrdia, nejde o laboratórny experiment, ale o produkčný sieťový návrh, na ktorom už beží tréning viacerých modelov. Presne to odlišuje MRC od množstva výskumných nápadov, ktoré sú zaujímavé na papieri, ale nikdy neprejdú do prevádzky v skutočnej mierke.

Pre širší trh to má minimálne dva dôsledky. Po prvé, čoraz viac sa ukazuje, že konkurenčná výhoda AI firiem nebude iba v samotnom modeli, ale aj v tom, ako dobre dokážu optimalizovať energetiku, sieť, scheduling a odolnosť celej infraštruktúry. Po druhé, tlak na vlastné sieťové inovácie zrejme porastie aj u ďalších laboratórií a cloudových partnerov. S rastúcou cenou tréningových behov sa každý výpadok siete alebo zbytočne nevyužitá GPU minúta okamžite premieta do nákladov.

MRC preto nie je téma len pre sieťových inžinierov. Je to ukážka, ako sa AI priemysel posúva do fázy, v ktorej sa najväčšie skoky už nedejú iba v architektúre modelov, ale aj v hlbokých systémových vrstvách pod nimi. Ak sa OpenAI podarí presadiť tento prístup aj mimo vlastného ekosystému, MRC môže ovplyvniť spôsob, akým sa budú navrhovať tréningové fabriky pre ďalšiu generáciu veľkých modelov. V ére, keď sa všetci pozerajú na benchmarky modelov, je to pripomienka, že budúcnosť AI často rozhoduje aj to, čo sa deje medzi rackmi, switchmi a packetmi.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie