AI novinky8. mája 20264 min čítania

Superhuman s Databricks ukazujú, ako dostať inferenciu nad 200-tisíc QPS

Databricks a Superhuman opisujú presun z vlastného vLLM stacku na riadenú inferenčnú vrstvu, ktorá má zvládnuť špičky nad 200-tisíc požiadaviek za sekundu, sub-sekundové P99 a vyššiu efektivitu na H100 GPU.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Databricks Generative AI

#model serving #H100 #vLLM #inferencia #AI infraštruktúra #Superhuman #Databricks

Databricks zverejnil technický rozpis spolupráce so Superhumanom, v ktorom dvojica opisuje, ako presunula vysoko zaťažený inferenčný workload z vlastného stacku postaveného okolo vLLM na službu Foundation Model API Provisioned Throughput. Príbeh je zaujímavý nielen veľkosťou čísel, ale aj tým, čo hovorí o dnešnom smerovaní AI infraštruktúry. Superhuman podľa zverejnených údajov obsluhuje špičky nad 200-tisíc požiadaviek za sekundu, cieli na P99 pod jednou sekundou a zároveň nechce ustúpiť z kvality modelu. To je kombinácia, pri ktorej sa rozdiel medzi pekným benchmarkom a reálnou produkčnou prevádzkou ukáže veľmi rýchlo.

Jadrom nasadenia je model na gramatické opravy, ktorý Superhuman používa v reálnom čase. Z pohľadu samotného workloadu nejde o dlhé generovanie s tisíckami tokenov, ale o veľmi hustú prevádzku s krátkymi vstupmi aj výstupmi približne po päťdesiat tokenov. Práve takýto profil je pre AI infraštruktúru zradný. Ak je odpoveď krátka, veľká časť celkovej latencie neleží v modelovom reasoningovom čase, ale v orchestrace, routingu, štarte kontajnerov, práci CPU okolo GPU a v rozložení prevádzky medzi repliky. Databricks preto nepredáva príbeh ako „rýchlejší model“, ale ako optimalizáciu celej obslužnej vrstvy okolo inferencie.

Podľa zverejnených čísel priniesla spoločná práca 60-percentné zvýšenie throughputu na H100 pod, konkrétne posun z približne 750 na 1 200 požiadaviek za sekundu na pod. V materiáli sa ako najväčší samostatný prínos spomína FP8 kvantizácia, ktorá mala sama o sebe pridať asi 30 percent výkonu. Ďalšia časť zisku prišla z odstránenia CPU bottleneckov, keď sa príprava a odosielanie práce na GPU rozdelili do viacerých CPU procesov namiesto jedného sériového miesta. Z pohľadu praxe je to dôležitý signál: pri veľkých inferenčných nasadeniach sa výkon neláme iba na kvalite kernelov či type GPU, ale rovnako na tom, ako efektívne je obslúžená cesta k akcelerátoru.

Databricks zároveň detailnejšie opisuje vlastný load balancing. Pri veľmi vysokej záťaži mal klasický round-robin routing narážať na hotspoty a horšiu tail latenciu. Nasadenie preto prešlo na variant stratégie „power of two choices“, kde systém vyberie dvoch kandidátov a request pošle tomu s nižším počtom aktívnych požiadaviek. Táto technika je známa už dlhšie, ale pri AI inferencii nadobúda nový význam, pretože dĺžka a výpočtová náročnosť jednotlivých requestov sa môže meniť aj pri zdanlivo podobných úlohách. Rozdiel medzi rovnomerným rozložením prevádzky a lokálnym preťažením sa potom priamo premieta do P99 latencie, čo je metrika, ktorú používatelia pocítia najviac.

Zaujímavý je aj popis autoscalingu. Superhuman má podľa Databricks výrazné denné špičky a potrebuje reagovať agresívne pri raste záťaže, no opatrnejšie pri scale-down, aby systém neflapoval. To je opäť skôr prevádzková než modelová lekcia. Veľká časť AI infra diskusie sa stále točí okolo toho, ktorý serving engine alebo aký formát kvantizácie je „najlepší“. Tento case study pripomína, že vo firemnej realite musí byť rovnako presvedčivé aj spúšťanie replík, cold start správanie, kapacitné plánovanie a tolerancia voči výkyvom v premávke. Databricks spomína aj zrýchlenie štartu kontajnerov cez lazy-loading filesystem, ktorý má skrátiť rozbeh z minút na sekundy.

Najzaujímavejšia časť príbehu je možno strategická, nie technická. Superhuman podľa blogu nechcel tráviť ďalšie mesiace ručným ladením vlastného L40S stacku pri každej modelovej iterácii. Namiesto toho si ponechal kontrolu nad tréningom, kvantizáciou a internými evalmi, kým zodpovednosť za runtime výkon, škálovanie a spoľahlivosť preniesol na Databricks. To dobre vystihuje posun, ktorý dnes vidno v čoraz väčšom počte firiem: model a evaly zostávajú diferenciátorom, no serving sa postupne mení na službu, kde klient od poskytovateľa očakáva SLA, špecializovanú optimalizáciu a schopnosť absorbovať prevádzkové riziká.

Práve tento moment robí z článku dôležitý signál aj pre zvyšok trhu. Ešte pred rokom sa často zdalo, že „správna“ cesta vedie cez vlastný inferenčný stack, lebo len ten dá tímu plnú kontrolu nad nákladmi a výkonom. Dnes sa ukazuje, že pri dostatočne veľkom objeme prevádzky vie byť vlastný stack drahý nielen na GPU, ale aj na inžiniersku pozornosť. Ak má malý infra tím neustále dolaďovať routing, autoscaling, CPU bottlenecky a nové modelové verzie, neplatí iba za servery. Platí aj odloženými produktovými rozhodnutiami. Databricks si týmto case study buduje pozíciu partnera, ktorý chce byť viac než len hostiteľ modelu: chce prevziať časť zložitej prevádzkovej matematiky.

Z pohľadu trhu je dôležité aj to, že nejde o laboratórny benchmark na jednej karte. Databricks explicitne hovorí o škálovaní na stovky GPU, o 4-deviatkovej spoľahlivosti a o nulovej regresii na interných evaloch Superhumanu. To sú parametre, ktoré majú v enterprise debate väčšiu váhu než jednorazové grafy z mikrobenchmarku. Ak sa takýto model serving presadí, bude to znamenať ďalšie preskupenie síl medzi open-source serving enginmi, hyperscale platformami a dátovými cloudmi, ktoré sa z úlohy skladiska dát posúvajú hlbšie do inferenčnej vrstvy.

Pre AI Feed je tento materiál cenný aj preto, že nejde iba o ďalšiu firemnú tlačovú správu o partnerstve. Databricks zverejnil dosť technických detailov na to, aby sa z prípadu dal vyčítať širší trend: víťazom nebude len ten, kto ponúkne najlepší model, ale ten, kto vie model obslúžiť pod extrémnou prevádzkou bez toho, aby klient niesol celé bremeno infraštruktúrneho ladenia. Prípad Superhumanu tak funguje ako praktická ukážka toho, prečo sa AI serving z pomocnej vrstvy mení na samostatný boj o maržu, spoľahlivosť a vlastníctvo zákazníckeho vzťahu.

Zdroje

Superhuman s Databricks ukazujú, ako dostať inferenciu nad 200-tisíc QPS

Ďalšie články k téme

Databricks tvrdí, že Genie vie v dátových úlohách preskočiť coding agentov

METR spochybňuje dôkazy Anthropicu o nízkom riziku automatizovaného AI výskumu

BAIR mapuje nový smer škálovania uvažovania: model si sám rozdelí úlohu paralelne