AI modely7. mája 20264 min čítania

OpenAI posúva hlas v API: nové realtime modely zvládnu preklad, prepis aj silnejšie uvažovanie

OpenAI rozširuje Realtime API o trojicu hlasových modelov, ktoré majú posunúť hlasové rozhrania od jednoduchého dialógu k praktickému vykonávaniu úloh, priebežnému prekladu a živému prepisu reči.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: OpenAI

#OpenAI #speech-to-text #hlasová AI #Realtime API #preklad reči

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI modely a opiera sa o 3 zdroje.

OpenAI dnes rozšírilo svoju ponuku hlasových modelov v API o trojicu noviniek, ktoré cielia na jednu z najnáročnejších oblastí produktovej AI: prirodzenú hlasovú interakciu v reálnom čase. Firma uvádza GPT-Realtime-2, GPT-Realtime-Translate a GPT-Realtime-Whisper. Z pohľadu trhu nejde len o kozmetický update zvukovej vrstvy, ale o pokus presunúť hlasové aplikácie z kategórie ukážkových dem do vrstvy, kde zvládnu dlhšie rozhovory, prácu s nástrojmi, opravy používateľa počas hovoru aj okamžité prepínanie medzi jazykmi.

OpenAI stavia komunikáciu okolo jednoduchej tézy: hlas sa stáva plnohodnotným rozhraním medzi človekom a softvérom. To je dôležité najmä v situáciách, keď používateľ nechce alebo nemôže písať. Reálne scenáre siahajú od zákazníckej podpory cez cestovanie až po interné podnikové workflow, v ktorých sa AI nemá iba rozprávať, ale priebežne konať. Firma preto tlačí najmä schopnosť modelu udržať kontext, zapájať nástroje bez prerušenia konverzácie a reagovať spôsobom, ktorý nepôsobí ako strohý skript.

Kľúčovou novinkou je GPT-Realtime-2. Podľa OpenAI ide o prvý hlasový model s úrovňou uvažovania porovnateľnou s rodinou GPT-5, pričom je navrhnutý pre živé rozhovory, nie iba pre dávkové spracovanie zvuku. Dôležitý je najmä posun v správaní počas komplikovanejších požiadaviek: model má vedieť hovoriť, že niečo preveruje, paralelne volať viac nástrojov, opravovať sa po prerušení a zároveň držať prirodzený tok dialógu. OpenAI zároveň zvýšilo kontextové okno z 32-tisíc na 128-tisíc tokenov, čo je pri hlasových agentoch podstatné, ak majú vydržať dlhšie sedenia bez straty súvislostí.

Firma k tomu pridáva aj jemnejšiu kontrolu nad latenciou a kvalitou uvažovania. Vývojári si môžu zvoliť úroveň reasoning effort od minimal cez low až po xhigh. Praktický význam je jasný: pri jednoduchých úlohách môže agent reagovať svižnejšie, pri zložitejších požiadavkách sa dá zámerne obetovať čas výmenou za lepší výsledok. Pre komerčné hlasové nasadenia je to dôležitejšie, než sa môže zdať. Rozdiel medzi použitelným a frustrujúcim systémom často neleží iba v presnosti prepisu, ale v tom, či agent rozumie zámeru, vie si vypýtať doplnenie a nestratí sa po zmene zadania uprostred hovoru.

Druhá novinka, GPT-Realtime-Translate, mieri na trh živého viacjazyčného prekladu. OpenAI tvrdí, že model spracuje viac než 70 vstupných jazykov a prekladá do 13 výstupných jazykov tak, aby stíhal tempo hovoriaceho. To je presne typ funkcie, na ktorom sa láme rozdiel medzi marketingovým sľubom a reálnym produktom. Pri živom preklade nestačí vysoká jazyková kvalita v laboratóriu; systém musí držať krok s človekom, znášať regionálnu výslovnosť, zmenu témy aj odborné termíny. OpenAI preto ukazuje príklady z telekomunikácií, eventov a cestovania, teda z oblastí, kde oneskorenie alebo strata významu rýchlo ničí používateľský zážitok.

Tretia časť balíka, GPT-Realtime-Whisper, je nový streamingový model na živý prepis reči. V praxi to znamená, že titulky, poznámky zo stretnutí alebo rozpoznávanie vstupu pre hlasového agenta majú vznikať priebežne, nie až po ukončení nahrávky. Práve táto vrstva je pre mnoho firiem menej viditeľná, ale obchodne veľmi dôležitá. Bez spoľahlivého nízkolatenčného prepisu sa nedá postaviť použiteľné live captioning, okamžité sumarizovanie porád ani hlasové workflow pre support, zdravotníctvo či recruiting.

OpenAI svoje tvrdenia podkladá aj odkazmi na benchmarky. Pri GPT-Realtime-2 uvádza zlepšenia na Big Bench Audio a Audio MultiChallenge oproti predchádzajúcej generácii. Samotné čísla ešte nezaručujú produktový úspech, ale naznačujú, kam sa firma snaží hlasovú AI posunúť: od pekného hlasu k modelu, ktorý vie počas rozhovoru premýšľať, vysvetliť, čo robí, a pritom nespadnúť pri zložitejšom viac-krokovom scenári. To je zásadné najmä v podnikových nasadeniach, kde sa hlasový agent skôr či neskôr musí napojiť na kalendár, CRM, rezervácie alebo interné systémy.

Dôležitou časťou oznámenia je aj bezpečnostná vrstva. OpenAI píše, že Realtime API používa aktívne klasifikátory nad reláciami a vybrané konverzácie môže zastaviť, ak narazia na porušenie pravidiel. Zároveň odporúča dopĺňať vlastné guardraily na strane vývojára. To je rozumné upozornenie: čím schopnejší je hlasový agent v reálnom čase, tým vyššie sú nároky na transparentnosť, obmedzenia nástrojov a jasné označenie, že používateľ komunikuje s AI. Najmä pri podpore, zdravotníckych workflow či finančných službách nemožno hlas považovať iba za nové UX, ale za nový prevádzkový kanál s vlastnými rizikami.

Pre trh je táto séria noviniek signálom, že hlasová AI sa presúva z okrajovej disciplíny do hlavného produktového prúdu. Ak sa OpenAI podarí udržať latenciu, spoľahlivosť tool callov a viacjazyčný výkon aj mimo benchmarkov, tlak sa prenesie na celý ekosystém od kontaktných centier po interných asistentov vo firmách. Najbližšie mesiace preto nebudú o tom, kto má najprirodzenejší syntetický hlas, ale o tom, kto dokáže spojiť hlas, uvažovanie, prepis a akciu do jedného použiteľného systému.

Zdroje

OpenAI posúva hlas v API: nové realtime modely zvládnu preklad, prepis aj silnejšie uvažovanie

Ďalšie články k téme

Hybridné modely Olmo lepšie zvládajú význam, nie jednoduché kopírovanie

OpenAI ukazuje, ako agenti menia prácu z krátkych otázok na delegované úlohy

OpenAI a Broadcom ukázali čip Jalapeño pre rýchlejšiu inferenciu LLM