AI výskum29. apríla 20263 min čítania

Apple ukazuje, že AI nemá rozmýšľať rovnako dlho pri každej otázke

Apple navrhuje spôsob, ako model ešte pred generovaním odpovede odhadne náročnosť otázky a pridelí jej primeraný rozpočet na uvažovanie. Cieľom je ušetriť tokeny bez citeľnej straty presnosti.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Apple Machine Learning Research

#reasoning #LLM #AI výskum #Apple #inferencne naklady

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 1 zdroj.

Veľké jazykové modely sa dnes čoraz častejšie posudzujú podľa toho, koľko dodatočného času a tokenov vedia premeniť na lepšie uvažovanie. Prax však naráža na jednoduchý problém: nie každá otázka potrebuje rovnako dlhý interný reťazec úvah. Apple v novej výskumnej práci Adaptive Thinking tvrdí, že práve toto plošné prideľovanie rozpočtu je neefektívne a že model by mal vedieť odhadnúť potrebu „premýšľania“ ešte skôr, než sa doň pustí.

Autori vychádzajú z pozorovania, že pri ľahších úlohách bývajú rôzne cesty uvažovania konzistentné a zbiehajú sa k rovnakému výsledku. Naopak pri ťažších otázkach sa odpovede medzi jednotlivými pokusmi rozchádzajú. Túto mieru zhody, teda self-consistency, používajú ako signál, či si úloha zaslúži dlhší rozpočet na inferenciu. Namiesto toho, aby sa modelu vždy dovolilo generovať dlhé chain-of-thought pasáže, môže systém dopredu odhadnúť, kde sa dlhšie uvažovanie naozaj oplatí.

Kľúčovou súčasťou práce je mechanizmus Sonata, teda Self-Consistency-Guided Adapter for Thinking Allocation. Ide o ľahký adaptér naučený offline na kalibračných dátach, ktorý sa pozerá na reprezentácie v poslednej vrstve modelu už počas prefilling fázy. Z nich odhaduje, či má zmysel otvoriť kratší alebo dlhší rozpočet na uvažovanie. Dôležité je, že tento krok nepridáva takmer žiadne dodatočné výpočtové náklady, lebo rozhodnutie padá ešte pred samotným generovaním interného reasoning textu.

Pre prax je zaujímavé najmä to, že Apple nepredkladá len intuitívnu heuristiku, ale pomerne konkrétnu optimalizáciu pomeru výkonu a ceny. V experimentoch na modeloch Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B a Intern-S1-mini ukazuje Sonata úsporu približne 20 až 80 percent thinking tokenov pri zachovaní rovnakej presnosti. V opačnom režime vie pri rovnakom tokenovom rozpočte priniesť zlepšenie presnosti až o päť percent. To je dôležitý odkaz pre firmy, ktoré dnes riešia, či je „viac uvažovania“ vôbec ekonomicky udržateľná cesta.

Z technického hľadiska je podstatné aj to, že navrhnutý adaptér má byť prenositeľný medzi rôznymi úlohami. Autori tvrdia, že po natrénovaní na kalibračnom datasete sa dá používať naprieč benchmarkmi bez toho, aby sa musel zakaždým preškoľovať pre konkrétnu doménu. To zvyšuje šancu, že podobný prístup nezostane iba akademickou demonštráciou na jednej sade úloh, ale môže sa stať všeobecným riadiacim prvkom v produkčných reasoning pipeline.

Výsledky zároveň dopĺňajú širší trend okolo test-time compute. Od OpenAI cez Google až po open-weight komunitu sa ukazuje, že výkon modelu už nestojí len na tréningových dátach a veľkosti parametrov, ale aj na tom, ako inteligentne sa narába s rozpočtom počas inferencie. Adaptive Thinking posúva debatu od jednoduchej otázky „koľko tokenov model dostane“ k jemnejšej otázke „ako model spozná, že ich tentoraz naozaj potrebuje“.

Ak sa podobné mechanizmy osvedčia, môžu zmeniť aj cenotvorbu komerčných AI služieb. Poskytovatelia dnes často účtujú za objem tokenov, no používateľ nevidí, či systém míňa rozpočet efektívne. Adaptívne prideľovanie uvažovania by mohlo znížiť náklady pri rutinných otázkach a zároveň ponechať priestor pre náročnejšie úlohy tam, kde je vyššia pravdepodobnosť omylu. Pre enterprise nasadenia to znamená realistickejšiu cestu k spoľahlivosti bez toho, aby sa každý dotaz predražil ako matematická olympiáda.

Apple týmto výskumom neprináša hotový používateľský produkt, ale veľmi praktický rámec pre ďalšiu generáciu reasoning systémov. V čase, keď sa okolo latentného uvažovania a chain-of-thought optimalizácie vedie intenzívna diskusia, je prínos tejto práce najmä v tom, že spája merateľný signál náročnosti otázky s konkrétnym mechanizmom riadenia nákladov. Pre trh je to dôležitejšie než ďalší abstraktný slogan o „mysliacich modeloch“: ukazuje sa, že budúci rozdiel medzi priemerným a dobrým agentom nemusí byť len v tom, či vie uvažovať, ale či vie rozpoznať, kedy sa má vôbec zastaviť a rozmýšľať dlhšie.

Zdroje

Apple Machine Learning Research: Adaptive Thinking

Apple ukazuje, že AI nemá rozmýšľať rovnako dlho pri každej otázke

Ďalšie články k téme

Model sleduje laserové zváranie z obrazu a odhaduje hĺbku prieniku

GNN skúšajú čítať vlastnosti konečných grúp z Cayleyho grafov

CHISAO skúša hľadať viac vrcholov funkcie priamo na GPU