aifeed.skAI Feed
AI novinky5 min čítania

SGLang 0.5.12 pridáva day-0 podporu pre DeepSeek-V4 a cieli na veľké GPU klastre

Nová verzia open-source inferenčného stacku SGLang rozširuje podporu pre DeepSeek-V4, zjednocuje docker image pre Nvidia GPU a pridáva optimalizácie pre Blackwell, Hopper aj dlhé kontexty.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
SGLang / LMSYS

SGLang vydal verziu 0.5.12, ktorá sa výrazne sústreďuje na jeden z technicky najnáročnejších scenárov dneška: dostať nový veľký open-weight model do prevádzky hneď v deň uvedenia, a to bez kompromisov v paralelizácii, cacheovaní či obsluhe nástrojov. Ťažiskom release je plná day-0 podpora pre DeepSeek-V4, teda model, ktorý stavia na veľmi veľkom mixture-of-experts nastavení, pracuje s dlhým kontextom a v praxi vyžaduje nielen samotné načítanie váh, ale aj stabilnú inferenčnú cestu cez plánovanie GPU pamäte, rozklad práce medzi akcelerátory a rýchle dekódovanie odpovedí. Pre firmy a tímy, ktoré si chcú nové modely nasadzovať vo vlastnej infraštruktúre, je práve tento rozdiel medzi „model sa spustí“ a „model sa dá rozumne prevádzkovať“ zásadný.

Release notes hovoria o plnej inferenčnej ceste pre DeepSeek-V4 vrátane tensor paralelizácie, expert paralelizácie, context paralelizácie aj data parallel attention. V preklade to znamená, že SGLang nechce byť iba ďalšou vrstvou na obalenie modelu API rozhraním, ale mieri na reálne produkčné nasadenie vo väčších klastroch, kde sa požiadavky musia deliť medzi viac GPU a zároveň udržať nízku latenciu. Dôležité je aj to, že projekt explicitne uvádza podporu pre viac generácií hardvéru od Nvidia B300, B200, H200 a H100 až po GB200 a GB300, pričom spomína aj AMD MI35X. To znižuje riziko, že nové funkcie zostanú viazané len na úzky hardvérový ostrov a budú prakticky nedostupné mimo niekoľkých najväčších laboratórií.

Z technického pohľadu je zaujímavé, že SGLang pri DeepSeek-V4 nezdôrazňuje len samotné GPU jadrá, ale aj prácu s pamäťou a cache. Novinka HiSparse vie odkladať neaktívnu KV cache do CPU pamäte, čo je dôležité najmä pri modeloch s dlhým kontextom a kolísajúcim zaťažením. Release zároveň dopĺňa HiCache pre DeepSeek-V4 v rámci zjednoteného stromu Radix Tree a pridáva ďalšie opravy okolo SSD offloadu, čiastočných zhôd v cache a stability pri vyhadzovaní starších položiek. Práve tieto menej viditeľné vrstvy často rozhodujú o tom, či inferenčný server zvládne produkčný traffic bez prudkých výkyvov v spotrebe pamäte a oneskorení. V prostredí agentov a nástrojov, ktoré držia dlhšie kontexty a viac rozpracovaných relácií naraz, je takáto infraštruktúrna práca často hodnotnejšia než samotné marketingové benchmarky.

Dôležitou časťou nového vydania sú aj optimalizácie jadier pre samotné výpočty. Projekt spomína DeepGemm a FlashMLA pre DeepSeek-V4 vrátane podpory MegaMoE, neskoršie doplnené W4A4 a W4A8 kernelmi pre Hopper, optimalizovanou pipeline MHC plus DeepGemm a ďalšími zrýchleniami kompresných jadier. Pre používateľa to znamená snahu dostať mixture-of-experts modely do prevádzky nielen korektne, ale aj efektívne z hľadiska ceny za token a stabilnej latencie. V čase, keď sa open-weight modely čoraz častejšie porovnávajú nie iba podľa kvality odpovedí, ale aj podľa nákladov na prevádzku, je tento typ optimalizácie jedným z hlavných dôvodov, prečo sa okolo inferenčných stackov sústreďuje samostatná súťaž.

SGLang zároveň prepája túto prácu s vrstvou, ktorá je čoraz dôležitejšia pre agentické aplikácie: interpretáciou odpovedí modelu a obsluhou nástrojov. Pri DeepSeek-V4 release explicitne uvádza reasoning parser aj tool call parser, teda komponenty, ktoré znižujú trenie medzi surovým textovým výstupom modelu a aplikačnou logikou nad ním. Ak sa model používa ako jadro asistenta, workflow enginu alebo vývojárskeho nástroja, nestačí len generovať text. Systém musí vedieť spoľahlivo odlíšiť argumenty pre nástroj, priebežné uvažovanie či štruktúrované výstupy. To je aj dôvod, prečo sa dnešné vydania inferenčných frameworkov čoraz menej podobajú na „driver pre model“ a čoraz viac na kompletnú runtime vrstvu pre agentov.

Zaujímavý je aj praktický detail, ktorý môže mať väčší dopad, než sa na prvý pohľad zdá: jednotný docker tag lmsysorg/sglang:v0.5.12 pre všetky Nvidia GPU. V produkcii býva práve matica medzi verziou frameworku, verziou CUDA, konkrétnou architektúrou GPU a použitými jadrami častým zdrojom problémov pri nasadzovaní. Zjednotenie image síce neodstráni všetky rozdiely medzi klastrami, ale znižuje počet miest, kde sa deployment môže rozísť medzi stagingom a produkciou. Pre tímy, ktoré zavádzajú nové modely rýchlo po releasoch, je prevádzková jednoduchosť často rovnako cenná ako samotné percentá výkonu navyše.

Okrem DeepSeek-V4 pridáva verzia 0.5.12 aj ďalšiu modelovú podporu vrátane Intern-S2-Preview, MiniCPM-V 4.6, Laguna-XS.2, Ring-2.6-1T a Gemma 4 MTP. To ukazuje širšiu ambíciu projektu: nebyť optimalizovaný len na jeden populárny model, ale fungovať ako rýchlo reagujúca infraštruktúrna vrstva pre širší open-source ekosystém. Pre multimodálne a reasoning modely je dôležité aj to, že SGLang vedľa nových modelov ďalej rozvíja speculative decoding, vrátane Adaptive Spec V2, podpory EAGLE-3 drafterov, FP8 KV cache na Blackwelli či opráv CPU overheadu. Tým sa zlepšuje nielen kompatibilita, ale aj cesta k vyššej priepustnosti bez neúmerného rastu nákladov.

Ak sa na toto vydanie pozrieme v širšom kontexte trhu, ide o ďalší signál, že boj o vývojársku pozíciu sa už nevedie iba na úrovni samotných modelov. Kto chce, aby sa nový open-weight model udomácnil vo firemnej alebo komunitnej praxi, potrebuje mať pripravené inferenčné jadro, deployment recepty, cache mechanizmy, parsery pre nástroje a dokumentované postupy pre konkrétne hardvérové konfigurácie. LMSYS tento moment podchytil tým, že release notes prepája s blogovým rozborom aj s cookbook dokumentáciou pre DeepSeek-V4. Výsledkom nie je len oznam o podpore, ale snaha vytvoriť kompletný balík, ktorý skracuje čas od oznámenia modelu k jeho reálnemu nasadeniu.

Pre AI Feed je dôležité najmä to, že SGLang 0.5.12 ukazuje, ako sa open-source infraštruktúra posúva od všeobecných serverov k špecializovaným runtime vrstvám pre konkrétne rodiny modelov a ich produkčné vlastnosti. Či už ide o offload KV cache, rozšírené paralelizačné režimy, Blackwell kernel optimalizácie alebo parsery pre tool calls, všetky tieto prvky mieria k tomu istému cieľu: aby sa veľké a zložité modely dali prevádzkovať spoľahlivejšie a lacnejšie aj mimo uzavretých platforiem. Pre prevádzkovateľov vlastných LLM služieb je to dôležitejší signál než samotné vydanie ďalšej verzie, pretože naznačuje, kde sa bude lámať konkurenčná výhoda v najbližších mesiacoch.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie