AI produkty23. mája 20263 min čítania

Databricks pridáva prompt caching pre otvorené modely a hlási rýchlejšiu inferenciu GPT-OSS

Databricks rozšíril automatické ukladanie opakovaných častí promptov aj na otvorené modely vo svojich Foundation Model API. Pri produkčnom nasadení GPT-OSS uvádza 2,5-násobný nárast priepustnosti a trojnásobne nižšiu mediánovú latenciu bez nutnosti manuálnej konfigurácie.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Databricks Blog

#Databricks #LLM inferencia #open-weight modely #Lakehouse #prompt caching #GPT-OSS

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 2 zdroje.

Databricks oznámil rozšírenie prompt cachingu na otvorené modely bežiace v jeho Foundation Model API. Prompt caching znamená, že systém znovu nepočíta opakovanú úvodnú časť promptu, napríklad dlhý systémový pokyn alebo doménové inštrukcie, ktoré sa posielajú v tisícoch požiadaviek. Namiesto toho si predspracovaný stav ponechá v pamäti a pri ďalšej podobnej požiadavke preskočí časť práce. Pre koncového používateľa to znie technicky, ale výsledok je jednoduchý: nižšia latencia, vyššia priepustnosť a menšie náklady na rovnaký typ aplikácie.

Podľa Databricks je novinka dostupná pre batch inferenciu, pay-per-token režim aj provisioned throughput pri vybraných otvorených modeloch. Firma uvádza GPT-OSS 20B a 120B, Gemma 3 12B, fine-tunovaný Llama 3.1 8B cez PEFT serving a modely Llama 3.1 8B a 3.3 70B. Rovnaký mechanizmus sa má prejaviť aj v službách vyššej úrovne, ktoré nad týmito modelmi bežia, vrátane Agent Bricks, Genie a AI Functions.

Najsilnejšie číslo v oznámení je produkčný príklad na GPT-OSS: Databricks tvrdí, že prompt caching zvýšil priepustnosť 2,5-násobne a znížil mediánovú latenciu P50 trojnásobne. Pri firemných aplikáciách je to viac než optimalizačná drobnosť. Mnohé interné AI systémy používajú dlhé a stabilné inštrukcie, v ktorých opisujú pravidlá odpovedania, bezpečnostné hranice, štruktúru výstupu alebo slovník firmy. Ak sa tieto inštrukcie počítajú znovu pri každom volaní, podnik platí za opakovanú prácu, ktorá neprináša novú informáciu.

Databricks zdôrazňuje, že caching je implicitný. Zákazník nemá nastavovať špeciálny parameter ani meniť štruktúru aplikácie; systém má podobné prefixy rozpoznať a využiť automaticky. To je dôležitý produktový detail, pretože veľa optimalizácií inferencie zlyháva práve na tom, že vyžadujú úzku spoluprácu aplikačného tímu, infra tímu a tímu pre modely. Ak sa zlepšenie zapne v platforme, prínos sa môže dostať aj k aplikáciám, ktoré nevznikali s ručnou optimalizáciou latencie.

Bezpečnostná časť oznámenia je rovnako podstatná. Databricks píše, že cache je izolovaná, žije iba vo volatilnej pamäti a nie je perzistentne uložená. Pri podnikových promptoch nejde o detail, pretože systémové pokyny môžu obsahovať citlivé kontextové pravidlá, názvy interných procesov alebo odkazy na dátové schémy. Ak by sa cache správala ako nejasné zdieľané úložisko, firmy by ju museli vypnúť. Preto je izolácia cache jedným z kľúčových predpokladov, aby sa takáto optimalizácia dala používať pri regulovaných dátach.

Správa zapadá do širšieho trendu: výkon modelu už nie je iba otázkou parametrov a benchmarkov, ale aj vrstvy, ktorá model obsluhuje. Firmy často nevyhrávajú tým, že majú o trochu lepší model, ale tým, že dokážu stabilne servírovať veľa požiadaviek, udržať náklady pod kontrolou a prepojiť inferenciu s governance. Prompt caching je typická infraštruktúrna funkcia, ktorá sa nedá dobre ukázať v marketingovej ukážke, ale v produkcii rozhoduje, či sa AI aplikácia dá škálovať.

Pre otvorené a open-weight modely je to aj konkurenčný signál. Proprietárne modely už podobné optimalizácie často majú ukryté za API. Ak platformy ako Databricks prinášajú caching do otvorených modelov, znižujú jednu z praktických výhod uzavretých služieb: jednoduchšiu prevádzku a lepší výkon bez vlastnej infraštruktúry. Zákazník tak môže skúšať otvorené modely v úlohách, kde by predtým narazil na latenciu alebo cenu dlhých promptov.

Najväčší dopad môže byť v agentických a analytických systémoch. Agent často opakuje rovnaké pravidlá práce s nástrojmi, formát výstupu a bezpečnostné obmedzenia, zatiaľ čo sa mení iba aktuálna otázka alebo dáta. Podobne analytické workflow opakuje veľký kontext o tabuľkách a metrikách. Ak sa tento spoločný základ amortizuje cez cache, otvorené modely sa môžu dostať bližšie k ekonomike, ktorú podniky očakávajú od masového nasadenia AI nad vlastnými dátami.

Zdroje

Databricks pridáva prompt caching pre otvorené modely a hlási rýchlejšiu inferenciu GPT-OSS

Ďalšie články k téme

Synthesia skúša posunúť firemné AI video do živého tréningu rozhovorov

PydanticAI 2.15 pridáva explicitné cacheovanie promptov a jemnejšie riadenie nástrojov

AWS skúša dopĺňať reasoning stopy do SFT dát cez samotný model Nova