AI novinky27. mája 20263 min čítania

Databricks opisuje, ako škáluje LLM inferenciu pri 125 biliónoch tokenov mesačne

Databricks zverejnil technický pohľad na infraštruktúru pre spoľahlivú LLM inferenciu. Kľúčové sú modelové jednotky, nákladovo citlivé smerovanie požiadaviek, automatické zotavenie zo skrytých zlyhaní a optimalizácie pre multimodálne záťaže.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Databricks

#AI infraštruktúra #GPU #Databricks #LLM inferencia #Mosaic AI #agentické aplikácie

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI novinky a opiera sa o 2 zdroje.

Databricks zverejnil technický článok o tom, ako stavia infraštruktúru pre spoľahlivú inferenciu veľkých jazykových modelov vo veľkom meradle. Firma tvrdí, že jej platforma obsluhuje viac než 125 biliónov tokenov mesačne a podporuje otvorené aj proprietárne modely vrátane rodín Kimi, Qwen, OpenAI, Gemini a Claude. Samotné číslo je pôsobivé, no dôležitejší je opis problémov, ktoré sa objavia až pri reálnej viacnájomníckej prevádzke.

Hlavná téza článku je jednoduchá: pri agentických aplikáciách už nestačí mať model, ktorý odpovedá správne v izolovanom teste. Podnikové aplikácie potrebujú predvídateľnú latenciu, dostupnosť, zotavenie po zlyhaní a cenovú efektivitu aj vtedy, keď dopyt počas pracovného dňa prudko kolíše. Databricks upozorňuje, že najnáročnejší agenti sú citliví najmä na čas do prvého tokenu a na rýchlosť generovania ďalších tokenov. Ak sa tieto metriky zhoršia, používateľ často vníma službu ako nespoľahlivú, aj keď model nakoniec odpovie.

Firma zavádza pojem modelová jednotka, teda abstrakciu podobnú virtuálnemu stroju, ale prispôsobenú pre kapacitu modelového servingu. Cieľom je, aby systém vedel alokovať, smerovať a škálovať GPU zdroje podľa zákazníka a typu záťaže. Pri klasickom serveri je relatívne jednoduché merať počet procesorov alebo pamäte. Pri LLM inferencii však cenu a kapacitu ovplyvňuje veľkosť vstupu, dĺžka výstupu, stav KV cache, architektúra modelu a spôsob dávkovania požiadaviek.

Na tejto abstrakcii Databricks stavia nákladovo citlivé vyvažovanie záťaže a autoscaling. Podľa článku takýto prístup priniesol viac než 80-percentnú úsporu GPU nákladov oproti statickému prideľovaniu kapacity, pričom cieľom bolo udržať požadovanú latenciu. Toto je dôležitý detail, lebo mnohé AI projekty zlyhávajú nie na schopnostiach modelu, ale na ekonomike prevádzky. Rezervovať drahé GPU pre špičky znamená vysoké nevyužitie, no agresívne šetriť kapacitu môže zasa zhoršiť odozvu a spoľahlivosť.

Článok tiež dobre pomenúva odlišnosť GPU infraštruktúry od klasických CPU systémov. Moderné zostavy pre frontier modely často závisia od rýchlych prepojení a od koordinácie viacerých uzlov. Ak zlyhá jeden uzol v zostave s oddeleným prefill a decode krokom, výpadok môže mať väčší dosah než bežné zlyhanie jedného servera. Tradičné poistky, ako držať veľkú záložnú kapacitu v inom type inštancií alebo v inej zóne, môžu byť pri drahých GPU ekonomicky neprijateľné.

Praktickým poučením je potreba aktívnych kontrol zdravia. Databricks opisuje black-box health checks, teda kontroly, ktoré sa pozerajú na správanie systému zvonka a vedia zachytiť aj tiché zlyhania. Pri inferenčných serveroch totiž problém nemusí vyzerať ako čistý pád procesu. Server môže zostať dostupný, ale začať generovať príliš pomaly, zasekávať sa alebo sa správať nestabilne pri určitom mixe požiadaviek. Automatické vyradenie a zotavenie takýchto uzlov je pre produkčnú AI rovnako dôležité ako samotný model.

Ďalšou vrstvou sú multimodálne záťaže. Databricks uvádza, že funkcie s obrázkami, videom alebo bezpečnostnou klasifikáciou vyžadujú samostatné predspracovanie a môžu mať iné úzke hrdlá než textové volania. Profilovanie týchto krokov podľa firmy viedlo až k trojnásobnému zlepšeniu priepustnosti v konkrétnych prípadoch. To potvrdzuje skúsenosť mnohých tímov: keď aplikácia začne používať viac modalít, nestačí optimalizovať iba generovanie tokenov. Treba merať celý reťazec od príjmu požiadavky po bezpečnostné filtre a návrat odpovede.

Pre vývojárov a prevádzkové tímy je tento článok užitočný najmä preto, že presúva diskusiu z benchmarkových rebríčkov k prevádzkovej realite. Najlepší model na papieri nemusí byť najlepší model pre aplikáciu, ktorá má v pondelok ráno zvládnuť tisíce agentických úloh a zároveň udržať náklady pod kontrolou. Rozhodujúce je, či platforma vie predpovedať kapacitu, izolovať zákazníkov, detegovať poruchy a meniť smerovanie požiadaviek skôr, než problém pocítia používatelia.

Databricks tým zároveň ukazuje, kam sa posúva konkurenčný boj v AI infraštruktúre. Modely sú stále dôležité, ale čoraz väčšia hodnota vzniká v riadení prevádzky okolo nich. Firmy, ktoré budú stavať vlastné agentické produkty, by si preto mali pýtať nielen cenu za milión tokenov, ale aj odpovede na otázky o p95 latencii, izolácii kapacity, mechanizmoch zotavenia, meraní skrytých chýb a podpore multimodálnych tokov. Bez týchto detailov zostane produkčná LLM inferencia drahým experimentom namiesto spoľahlivej súčasti podnikových systémov.

Zdroje

Databricks opisuje, ako škáluje LLM inferenciu pri 125 biliónoch tokenov mesačne

Ďalšie články k téme

OpenAI navrhuje, aby firmy merali AI podľa úspešnej práce, nie podľa tokenov

Patreon zapína prísnejšiu ochranu pred AI scrapovaním cez Cloudflare

Grok 4.3 prichádza na Amazon Bedrock cez Mantle a OpenAI-kompatibilné API