AI modely23. apríla 20264 min čítania

GPT-5.5 mieri na dlhšie úlohy: OpenAI pridáva výkon bez vyššej latencie

OpenAI uviedlo GPT-5.5 ako nový vlajkový model pre kódovanie, prácu s nástrojmi a dlhšie agentické workflow. Firma tvrdí, že novinka posúva kvalitu práce v Codexe aj ChatGPT, no pritom drží latenciu na úrovni GPT-5.4 a pridáva prísnejšie bezpečnostné testovanie.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: OpenAI

#OpenAI #agenti #Codex #LLM #benchmarky #ChatGPT #GPT-5.5

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI modely a opiera sa o 1 zdroj.

OpenAI dnes oficiálne predstavilo GPT-5.5, ktoré opisuje ako svoj doteraz najschopnejší a najpraktickejší model pre reálnu prácu na počítači. Oznámenie nie je postavené len na tradičnom prírastku v benchmarkoch, ale najmä na posune v tom, ako model zvláda viacstupňové zadania. Firma tvrdí, že GPT-5.5 sa rýchlejšie zorientuje v cieli úlohy, potrebuje menej priebežného usmerňovania, lepšie používa nástroje a častejšie si samo kontroluje výsledok skôr, než úlohu odovzdá. Z pohľadu trhu je dôležité, že OpenAI nepredáva novinku iba ako ďalší chatbot, ale ako pracovný model pre dlhšie workflow, v ktorých sa kombinuje kód, web, dokumenty, tabuľky a operácie v softvéri.

V praxi to znamená posun smerom k agentickému režimu práce, teda k systému, ktorý nemá iba odpovedať na jednu otázku, ale udržať si kontext cez viac krokov a dokončiť úlohu aj v neúplne špecifikovanom prostredí. OpenAI pri uvedení výslovne zdôrazňuje kódovanie, prácu s nástrojmi, online výskum, analýzu dát a tvorbu dokumentov. To je dôležitý signál aj pre firemných používateľov: miesto súťaže v jednorazových benchmarkoch sa čoraz viac rozhoduje v tom, ktorý model dokáže spoľahlivo zvládnuť dlhší pracovný tok bez neustáleho dohľadu používateľa. GPT-5.5 má práve v tejto disciplíne nahradiť starší model GPT-5.4 a zároveň potvrdiť, že OpenAI chce držať prvenstvo v kategórii modelov pre agentov a developerov.

Zverejnené čísla sú postavené práve na tomto type práce. OpenAI uvádza, že GPT-5.5 dosiahlo 82,7 percenta na Terminal-Bench 2.0, teda v hodnotení zameranom na komplexné príkazové workflow, plánovanie a koordináciu nástrojov. Na verejnom SWE-Bench Pro sa podľa firmy dostalo na 58,6 percenta a v internom Expert-SWE vraj znovu prekonalo GPT-5.4 pri dlhých úlohách, ktorých dokončenie by človeku bežne zabralo mnoho hodín. Firma zároveň ukazuje zlepšenie v BrowseComp, FrontierMath aj CyberGym. Samotné benchmarky síce netreba čítať ako priamu záruku produkčného výkonu, ale skladba týchto metrík je zaujímavá: nejde o testy jednorazovej konverzácie, skôr o signál, že OpenAI cieli na kategóriu modelu, ktorý má vedieť kombinovať reasoning, akciu a vytrvalosť.

Druhá dôležitá časť oznámenia je efektivita. OpenAI tvrdí, že GPT-5.5 dosahuje vyššiu úroveň inteligencie bez zhoršenia latencie na token v porovnaní s GPT-5.4 a na viacerých úlohách spotrebuje menej tokenov na dosiahnutie rovnakého alebo lepšieho výsledku. V preklade do prevádzky to znamená, že firma nechce trh presvedčiť len tým, že má „silnejší“ model, ale aj tým, že nový model môže byť pri rovnakom rozpočte použiteľnejší. Pre nasadenie v Copilotoch, interných agentoch a nástrojoch typu Codex je to možno dôležitejšie než čistý nárast benchmarkového skóre. Ak sa výkon zlepší bez citeľného spomalenia, firmy sa ľahšie rozhodnú model skutočne pustiť do častého používania, nie iba do testovacej fázy.

OpenAI pritom zverejnenie rámuje aj ako infraštruktúrny príbeh. Firma uvádza, že GPT-5.5 bolo spolu-navrhované, trénované a servované na systémoch NVIDIA GB200 a GB300 NVL72 a že dosiahnutie vyššieho výkonu pri rovnakom oneskorení si vyžadovalo zásadné zmeny v serving stacku. Zaujímavé je aj to, že OpenAI v texte otvorene píše o použití Codexu a GPT-5.5 pri hľadaní a implementácii častí optimalizácií vlastnej infraštruktúry. Takýto detail je pre trh dôležitý, pretože ukazuje, že veľké laboratóriá už nepredávajú iba model, ale aj schopnosť modelom zrýchľovať vývoj vlastnej platformy. Zároveň to posúva diskusiu o tom, kde sa dnes tvorí konkurenčná výhoda: nielen v tréningu, ale aj v schopnosti efektívne obslúžiť agentické úlohy pri rozumnej cene a odozve.

Bezpečnostná stránka release ostáva rovnako dôležitá. OpenAI spolu s hlavným oznámením zverejnilo aj system card, v ktorej tvrdí, že GPT-5.5 prešlo plným prednasadzovacím hodnotením a Preparedness Frameworkom vrátane cielenej red-team práce pre pokročilú kybernetickú a biologickú oblasť. Firma hovorí aj o spätnej väzbe od takmer dvesto partnerov v skorom prístupe. Pre zákazníkov to nie je detail navyše, ale praktická podmienka adopcie: čím viac sa modely používajú na reálnu prácu s nástrojmi, tým menej stačí všeobecná formulka o bezpečnosti a tým viac bude rozhodovať, ako laboratórium dokumentuje konkrétne riziká, obmedzenia a testy pred nasadením.

Z obchodného pohľadu je zaujímavý aj spôsob rollout-u. GPT-5.5 ide do ChatGPT pre účty Plus, Pro, Business a Enterprise, verzia GPT-5.5 Pro smeruje do vyšších platených plánov a do Codexu. API nasadenie OpenAI zatiaľ neotvára plošne a otvorene priznáva, že si vyžiada iný bezpečnostný režim a užšiu spoluprácu s partnermi. To naznačuje, že firma vidí väčší krátkodobý zmysel v kontrolovanejšom prostredí produktov, kde vie lepšie nastaviť guardraily aj observabilitu, než v okamžitom masovom vystavení najnovšieho modelu cez všeobecné rozhranie. Pre ekosystém vývojárskych nástrojov to však znamená, že plný dopad nového modelu na trhu môže prísť až s API sprístupnením.

Pre širší AI trh je GPT-5.5 dôležité najmä ako potvrdenie trendu, že nová vlna súťaže sa presúva z „čo model vie povedať“ na „čo model vie dokončiť“. OpenAI tak vlastne posúva latku v kategórii modelov pre dlhšie pracovné úlohy, kde sa musí spojiť plánovanie, výkon v nástrojoch, odolnosť voči chybám a ekonomika prevádzky. Ak sa tvrdenia firmy potvrdia aj mimo interných testov, pôjde o významný tlak na konkurenciu od Anthropic, Google či ďalších hráčov, aby podobne ukázali nielen vyššie skóre, ale aj lepšie dokončovanie práce naprieč softvérom. To je presne typ posunu, ktorý rozhoduje o tom, či sa agentické AI stane každodenným pracovným nástrojom, alebo zostane len demonštráciou na pódiu.

Zdroje

OpenAI: Introducing GPT-5.5

GPT-5.5 mieri na dlhšie úlohy: OpenAI pridáva výkon bez vyššej latencie

Ďalšie články k téme

Claude Opus 5 cieli na dlhé agentické úlohy a prináša miliónový kontext

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM

PydanticAI 2.15 pridáva explicitné cacheovanie promptov a jemnejšie riadenie nástrojov