AI novinky23. apríla 20263 min čítania

Google uvádza TPU 8t a 8i: čipy delí na tréning a rýchlu obsluhu agentov

Google na Cloud Next predstavil ôsmu generáciu TPU v dvoch variantoch. TPU 8i cieli na rýchlu inferenciu pre agentické úlohy, zatiaľ čo TPU 8t je optimalizovaný na tréning veľkých modelov s masívnou pamäťovou kapacitou.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#agenti #Google #inferencie #TPU #infraštruktúra #Cloud Next

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI novinky a opiera sa o 2 zdroje.

Google na konferencii Cloud Next predstavil dvojicu nových akcelerátorov TPU 8t a TPU 8i a urobil tým pomerne čitateľný strategický krok. Namiesto jedného univerzálneho čipu otvorene rozdeľuje infraštruktúru podľa toho, na čo sa má používať. Jeden variant smeruje na tréning najväčších modelov, druhý na čo najrýchlejšie vykonávanie agentických úloh v produkcii. Pre trh je zaujímavé najmä to, že Google tento rozdiel komunikuje priamo ako reakciu na nástup agentov, nie iba ako ďalší generačný upgrade hardvéru.

Podľa oficiálneho blogu je TPU 8i navrhnutý špeciálne pre pracovné zaťaženie, kde agent musí rýchlo rozmýšľať, plánovať a vykonávať viacstupňové kroky. Inými slovami, nejde len o klasické chatbotové odpovede, ale o situácie, keď model opakovane siaha po nástrojoch, prechádza workflow a musí pritom držať nízku latenciu. Google tým priznáva, že pri agentoch sa výkonnosť neposudzuje len podľa priepustnosti v benchmarku, ale podľa toho, ako svižne systém zvláda dlhšie sekvencie rozhodnutí a interakcií.

Druhý variant, TPU 8t, je orientovaný na tréning a Google pri ňom zdôrazňuje schopnosť spúšťať aj veľmi zložité modely nad jedným veľkým pamäťovým priestorom. To je dôležité najmä v čase, keď rastie tlak na multimodálne modely, dlhší kontext a zložitejšie architektúry. Pri tréningu už často nestačí iba hrubá výpočtová sila. Rovnako dôležité je, ako efektívne sa presúvajú dáta, koľko pamäte je dostupnej pre veľké aktivácie a ako ľahko sa dajú trénovať rozsiahle modely bez príliš agresívneho delenia medzi zariadeniami.

Google teda nestavia iba rýchlejší čip, ale naznačuje, že v AI infraštruktúre sa znovu láme rovnováha medzi tréningom a inferenciou. Posledné mesiace ukazujú, že firmy chcú nasadzovať agentov do produkcie rýchlejšie, no pritom ďalej trénovať alebo dolaďovať väčšie modely. Ak sa tieto dve vrstvy správajú odlišne, dáva zmysel mať odlišnú optimalizáciu. Pre cloudových zákazníkov je to praktickejšie než čakať, že jeden akcelerátor bude rovnako dobrý na všetko.

Tento posun má aj obchodný rozmer. V AI sa dlho hovorilo hlavne o modeloch, no čoraz viac rozhoduje to, kto vie ponúknuť výhodný compute pre konkrétny typ úloh. Google sa týmto oznámením snaží upevniť vlastnú vertikálu od čipu cez dátové centrum až po cloudové služby a agentické platformy. Keď firma zároveň tlačí Gemini do enterprise a rozširuje agentické workflow, vlastný hardvér jej umožňuje ukázať, že infra vrstva nie je len podklad, ale súčasť produktu.

Pre podnikových zákazníkov je zaujímavé najmä to, že agentické workloady dostávajú samostatnú hardvérovú identitu. To môže ovplyvniť spôsob, akým sa budú navrhovať rozpočty aj architektúry. Doteraz sa inferencia často posudzovala ako jedna homogénna služba. Ak však agentické aplikácie potrebujú iné profily latencie, iné zaobchádzanie s pamäťou a inú mieru interaktivity než bežné generovanie textu, bude logické rezervovať pre ne odlišnú infraštruktúru a samostatné cenové modely.

Google síce v blogu prirodzene neotvára kompletné technické parametre tak, ako by to chceli vývojári alebo výskumníci, ale dôležitejší je samotný rámec. Firma explicitne spája nový hardvér s agentickou érou a s predstavou, že AI systémy budú robiť viac než len odpovedať. Budú plánovať, vykonávať úlohy a obsluhovať pracovné toky. Ak sa toto používanie stane dominantným, bude rásť tlak aj na ostatných cloudových hráčov, aby podobne rozlišovali medzi tréningovým a agenticko-inferenčným compute.

V širšom kontexte ide o ďalší dôkaz, že boj sa presúva od samotných modelových releaseov k infraštruktúre. Kto dokáže rýchlejšie a lacnejšie obslúžiť agentov, získa významnú časť podnikových nasadení. TPU 8t a 8i sú preto dôležité nie preto, že majú nové číslo v názve, ale preto, že ukazujú nový dizajnový princíp. Cloud pre AI sa čoraz menej tvári ako jedna univerzálna vrstva a čoraz viac ako skladba špecializovaných komponentov pre konkrétne druhy práce.

Zdroje

Google uvádza TPU 8t a 8i: čipy delí na tréning a rýchlu obsluhu agentov

Ďalšie články k téme

PydanticAI 2.15 pridáva explicitné cacheovanie promptov a jemnejšie riadenie nástrojov

Google vydáva Gemini 3.6 Flash a rýchlejší Flash-Lite pre agentické workflowy

OpenAI opisuje, ako testovací model prenikol k dátam Hugging Face počas kybernetického benchmarku