AI modely24. apríla 20264 min čítania

DeepSeek-V4 tlačí milión tokenov do praxe: open model mieri na dlhé agentické úlohy

DeepSeek predstavil radu V4 s miliónovým kontextom, no podstatnejší je iný posun: firma tvrdí, že nové modely výrazne znižujú priebežné výpočtové náklady aj pamäťové nároky pri veľmi dlhých behoch. To je dôležité najmä pre agentov, ktorí si do kontextu nesú históriu nástrojov, logov a medzikrokov.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#DeepSeek #open-weight modely #agenti #dlhý kontext #LLM #Hugging Face

DeepSeek pri generácii ďalšej rady modelov nestavia komunikáciu iba na veľkosti kontextového okna. Pri V4 je zaujímavejšie to, že firma sa snaží ukázať, prečo môže byť milión tokenov použiteľný aj v reálnej prevádzke, nie iba v benchmarku alebo marketingovej tabuľke. Pre agentické workflow je to zásadný rozdiel. Ak model počas hodiny práce opakovane používa nástroje, prehliada web, číta dokumenty alebo robí sériu úprav v kóde, kontext sa nenafukuje len textom používateľa, ale aj logmi, výsledkami tool callov a medzivýpočtami. Práve tam sa doteraz veľké okno často menilo na drahú a pomalú výhodu iba na papieri.

Podľa materiálov k DeepSeek-V4 prichádzajú dve hlavné vetvy. Model DeepSeek-V4-Pro má celkovo 1,6 bilióna parametrov, z ktorých je pri inferencii aktívnych 49 miliárd, kým ľahší DeepSeek-V4-Flash má 284 miliárd parametrov s aktívnymi 13 miliardami. Obe verzie podporujú kontext dĺžky jeden milión tokenov. V praxi to znamená, že firma cieli na dlhé sekvenčné úlohy, kde model nemusí neustále agresívne sumarizovať vlastnú pracovnú stopu alebo odhadzovať staršie časti stavu. V open-weight segmente je to dôležitý signál, pretože doteraz sa mnoho dlhých agentických behov rozbíjalo skôr na infraštruktúrnych limitoch než na samotnej kvalite odpovedí.

Kľúčový argument DeepSeeku je ekonomika jedného ďalšieho tokenu. Pri veľmi dlhom kontexte totiž nestačí mať „kapacitu“ na uloženie histórie. Každý ďalší krok modelu platí výpočtom za to, čo už v kontexte je. Ak sa tieto náklady s rastúcou dĺžkou prudko nafukujú, agent síce technicky nezlyhá, ale začne byť pomalý alebo neúmerne drahý. DeepSeek pri V4 tvrdí, že verzia Pro potrebuje pri miliónovom kontexte zhruba 27 percent jednorazových inferenčných FLOPs oproti DeepSeek-V3.2 a asi desatinu KV cache pamäte. Pri variante Flash majú byť čísla ešte agresívnejšie: približne desatina FLOPs a sedem percent KV cache v porovnaní s predchádzajúcou generáciou.

Praktický dopad treba čítať opatrne, no smer je jasný. Pre firmy, ktoré chcú stavať agentov nad internými nástrojmi, dlhý kontext nie je samoúčelná vlastnosť. Rozhoduje, či model zvládne viacero kôl práce bez toho, aby sa latencia zlomila po desiatkach nástrojových volaní. Ak DeepSeek naozaj stláča aj KV cache, znižuje tým tlak na GPU pamäť, ktorá je pri dlhých behoch často rovnako kritická ako samotný výpočtový výkon. To môže urobiť open modely použiteľnejšími v situáciách, kde sa dnes firmy spoliehajú skôr na uzavreté rozhrania s externou správou kontextu.

Zaujímavý je aj opis architektonických zmien. DeepSeek hovorí o rozdelení pozornosti medzi viac mechanizmov a o kompresii starších častí kontextu, aby model nemusel pristupovať ku kompletnej histórii rovnako draho pri každom ďalšom kroku. Pre čitateľa mimo výskumu je podstatné najmä to, že cieľom nie je iba „narvať“ viac textu do okna, ale zlacniť prácu s dávnou históriou a zároveň si udržať jemné lokálne detaily z posledných tokenov. Pri agentoch je to logické: iné informácie treba presne držať z nedávnych krokov a iné stačí mať v zhutnenej, no stále dostupnej forme.

Ďalšia dôležitá zmena sa týka samotného správania modelu v agentických scenároch. Podľa rozboru na Hugging Face mala staršia verzia DeepSeeku tendenciu pri novom používateľskom vstupe „zahodiť“ časť reasoning stopy, ak sa konverzácia lámala medzi kolami. Pri V4 má model vedieť udržať priebežný reasoning naprieč hranicami používateľských správ vtedy, keď ide o workflow s nástrojmi. To je presne detail, ktorý môže v praxi rozhodnúť, či agent po follow-upe nadviaže na rozrobenú úlohu alebo si ju musí rekonštruovať odznova. Pre dlhé tasky typu research, debugging alebo enterprise asistenti je to praktickejšia inovácia než samotné benchmarkové percentá.

To však neznamená, že DeepSeek-V4 automaticky posúva open-weight trh do novej rovnováhy. Hugging Face výslovne upozorňuje, že benchmarky síce vyzerajú konkurencieschopne, ale nie sú bez debaty špičkou trhu. Reálna adopcia bude závisieť od toho, ako sa model správa pri nasadení vo vLLM, v interných orchestration vrstvách, pri guardraile a pri dlhších viacnástrojových úlohách. Bude tiež záležať na tom, ako dobre sa podarí previesť výhody z papierových metrík do produkcie, kde sa mieša kontext, streaming, asynchrónne tool cally a obmedzenia hardvéru.

Aj tak ide o jednu z dôležitejších noviniek open modelového týždňa. Zatiaľ čo veľká časť trhu stále komunikuje hlavne benchmarky a cenu za token, DeepSeek pri V4 tlačí tému „použiteľného dlhého kontextu“ pre agentov. Ak sa tento smer potvrdí aj v praxi, môže to zmeniť spôsob, akým firmy počítajú návratnosť open-weight nasadení. Menej pamäte na cache a nižšia cena ďalšieho kroku totiž v dlhých behoch znamenajú viac než symbolický posun v tabuľke: môžu rozhodnúť, či sa agentický workflow oplatí držať interne, alebo sa opäť presunie k drahším uzavretým službám.

Zdroje

DeepSeek-V4 tlačí milión tokenov do praxe: open model mieri na dlhé agentické úlohy

Ďalšie články k téme

Stanford opisuje deluzívne špirály chatbotov: validácia môže zhoršiť psychické riziká

GPT-5.5 mieri na dlhšie úlohy: OpenAI pridáva výkon bez vyššej latencie

Google uvádza TPU 8t a 8i: čipy delí na tréning a rýchlu obsluhu agentov