aifeed.skAI Feed
AI produkty3 min čítania

OpenAI zrýchľuje agentické workflow: WebSockets skracujú čakanie v Responses API

OpenAI ukazuje, že pri rýchlych agentoch už nestačí len lepší model. Firma prerobila Responses API tak, aby dlhé slučky s nástrojmi bežali cez trvalé spojenie, nie cez sériu samostatných požiadaviek, a tvrdí, že tým skrátila end-to-end latenciu približne o 40 percent.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
AI Feed

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 2 zdroje.

OpenAI zverejnila technický rozbor, ktorý je zaujímavý najmä pre vývojárov stavajúcich agentov nad Responses API. Pointa nie je v ďalšom modeli ani v novej marketingovej vrstve, ale v tom, kde dnes pri agentickom používaní vzniká čoraz väčšia brzda. Keď agent pri jednom zadaní číta súbory, spúšťa príkazy, vracia výstupy a znovu sa rozhoduje, nevzniká len výpočtová záťaž na GPU. Rovnako dôležitou sa stáva réžia okolo každého jednotlivého API volania. Práve na túto vrstvu sa OpenAI tentoraz sústredila.

Vo firemnom príklade s Codexom firma opisuje typickú agentickú slučku: model najprv zistí, čo má urobiť, potom si vyžiada nástroj, klient ho spustí, výstup sa vráti späť do API a celý cyklus sa zopakuje ešte niekoľkokrát, kým sa úloha nedokončí. V minulosti bola najpomalšou časťou samotná inferencia, teda generovanie tokenov na akcelerátoroch. OpenAI však tvrdí, že s rýchlejšími modelmi sa proporcie menia. Ak model generuje omnoho rýchlejšie, používateľ zrazu citeľnejšie čaká na validáciu požiadaviek, sieťové presuny a spracovanie medzi jednotlivými krokmi agenta.

Riešením je trvalé spojenie cez WebSockets. Namiesto toho, aby klient pri každom kroku zakladal nové synchrónne API volanie, drží si s Responses API dlhšie otvorený kanál a cez ten postupne posiela udalosti, výsledky nástrojov aj ďalšie inštrukcie. To znie ako infra detail, ale v praxi ide o významný posun. Agentické workflow už viac nepripomína sériu izolovaných requestov, ale skôr priebežný rozhovor medzi klientom, bezpečnostnou vrstvou a modelom. OpenAI k tomu pridala aj cacheovanie vyrenderovaných tokenov a konfigurácií, obmedzenie zbytočných sieťových skokov a rýchlejšie klasifikátory pre bezpečnostné kontroly.

Firma tvrdí, že po tejto úprave sa end-to-end rýchlosť agentických slučiek zlepšila približne o 40 percent a čas do prvého tokenu klesol už v predchádzajúcej optimalizačnej vlne o zhruba 45 percent. Podstatnejší než samotné percentá je však širší odkaz. Keď sa modelová vrstva zrýchľuje smerom k stovkám až tisícom tokenov za sekundu, konkurenčná výhoda sa presúva vyššie v stacku. O úspechu nerozhoduje len kvalita modelu, ale aj to, ako rýchlo sa prepájajú nástroje, ako sa drží stav konverzácie a koľko režijných krokov platforma odstráni.

Pre trh s agentmi je to dôležitý signál aj preto, že mnohí dodávatelia dnes predávajú autonómne workflow ako hlavne modelový problém. OpenAI tu naopak otvorene hovorí, že úzke miesto vzniklo v API vrstve. To je praktická správa pre firmy, ktoré budujú interných agentov nad kódovými repozitármi, knowledge base či backoffice systémami. Ak budú chcieť znížiť latenciu a zvýšiť pocit plynulosti, zrejme nebudú riešiť len výmenu modelu, ale aj architektúru prenosu udalostí, cacheovanie kontextu a spôsob, akým sa plánovač agenta rozpráva s nástrojmi.

Zároveň to mení očakávania od poskytovateľov API. Doteraz sa dalo tolerovať, že agent síce vie urobiť veľa krokov, ale medzi nimi má citeľné prestoje. Pri produkčných nasadeniach, kde agent analyzuje logy, robí opravy v kóde alebo pripravuje výstupy pre operátorov, sa však čakacie doby rýchlo menia na náklad aj na UX problém. WebSockets samy osebe nie sú novinka, novinkou je skôr to, že ich OpenAI explicitne posúva do jadra agentického behu a opisuje ich ako nástroj na odstránenie systémovej réžie pri dlhších workflow.

Praktický dopad sa môže prejaviť najmä tam, kde agent potrebuje veľa krátkych iterácií. Sem patria coding assistanti, kontrola dokumentov, bezpečnostné workflow alebo kombinácia hľadania, extrakcie a rozhodovania nad viacerými zdrojmi. Každé ušetrené preposlanie požiadavky znižuje latenciu, ale aj pravdepodobnosť, že sa agentické správanie bude používateľovi javiť ako trhané a nepredvídateľné. To je dôležité, ak sa z agentov má stať nie doplnok pre demo, ale nástroj, ktorý ľudia naozaj používajú počas pracovného dňa.

OpenAI týmto textom zároveň nepriamo naznačuje, kde sa bude bojovať o ďalšiu výkonnostnú rezervu. Už nejde len o lacnejšiu inferenciu alebo väčší kontext. Veľká časť hodnoty sa bude presúvať do orchestrace, perzistentných spojení, práce so stavom a inteligentného prepájania modelu s nástrojmi. Pre vývojárov je to celkom užitočné vytriezvenie: ak chcú rýchlejšieho agenta, často nemusia meniť iba model. Niekedy musia prerobiť celý komunikačný rytmus medzi klientom a platformou.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie