AI výskum26. mája 20263 min čítania

ActQuant sľubuje sub-4-bitové robotické modely bez veľkého pádu výkonu

Výskumníci opisujú ActQuant, post-tréningovú kvantizáciu pre Vision-Language-Action modely, ktorá cieli na nasadenie robotických agentov na obmedzenom hardvéri.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#edge AI #robotika #arXiv #kvantizácia #VLA

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Ďalšia čerstvá práca na arXive rieši veľmi praktický problém embodied AI: veľké Vision-Language-Action modely môžu generovať robotické akcie, ale ich pamäťové a výpočtové nároky komplikujú nasadenie na reálnych zariadeniach. Autori predstavujú ActQuant, akčne riadený post-tréningový kvantizačný rámec, ktorý cieli na veľmi agresívne režimy pod štyri bity na váhu.

Vision-Language-Action modely spájajú vizuálne vnímanie, jazykové zadanie a výstup vo forme akcie robota alebo agenta. To z nich robí atraktívny smer pre manipuláciu, navigáciu a fyzické úlohy, no zároveň sú citlivé na degradáciu: malá chyba v reprezentácii nemusí znamenať len horšiu odpoveď v texte, ale aj zlý pohyb ramena alebo neúspešnú manipuláciu. Preto je kvantizácia v tejto oblasti náročnejšia než pri bežnom texte.

ActQuant podľa abstraktu používa dvojstupňový prístup. Najprv prideľuje bitovú šírku jednotlivým váhovým maticiam podľa toho, ako veľmi prispievajú k predikcii akcií. Potom dolaďuje per-blok kvantizačné škály pomocou akčne orientovanej krivosti, aby sa dostupný dynamický rozsah sústredil na váhy, ktoré sú najdôležitejšie pre riadenie. Pointa nie je len zmenšiť model, ale zmenšiť ho spôsobom, ktorý rešpektuje jeho kontrolnú úlohu.

Autori zároveň opisujú konverznú pipeline omnimodel.cpp, ktorá má prenášať architektúry do natívneho C/C++ runtime s nízkobitovými kernelmi. Tento detail je dôležitý, pretože kvantizačný algoritmus sám osebe nestačí. Aby sa úspora prejavila v praxi, model musí bežať v runtime, ktorý nízku presnosť skutočne využije a nestratí výhodu v neefektívnej konverzii alebo emulácii.

Reported výsledky treba brať ako tvrdenia autorov, ale sú pozoruhodné. Na benchmarku LIBERO má byť ActQuant jedinou metódou v porovnaní, ktorá funguje na úrovni tri bity na váhu alebo nižšie a pritom zachováva približne 95,0 % výkonu pri OpenVLA-OFT a 94,8 % pri pi_0.5. Pri ešte agresívnejšom nastavení 2,5 bita na váhu autori uvádzajú 90,1 % pri OpenVLA-OFT a zmenšenie backbone z 14,3 GB na 2,7 GB, teda približne 5,3-násobnú kompresiu.

Zaujímavé je aj fyzické overenie na robotickom ramene UR3 so šiestimi stupňami voľnosti. Podľa abstraktu si pi_0.5 kvantizovaný cez ActQuant zachoval úspešnosť baseline pri 2,5-násobne menšej pamäťovej stope. Ak sa tento typ výsledku potvrdí aj mimo autorského nastavenia, môže to znížiť bariéru pre lokálnejšie a lacnejšie robotické experimenty, najmä tam, kde nie je možné alebo vhodné spoliehať sa na veľký server.

Pre vývojárov robotických agentov je širší význam v tom, že kompresia sa začína prispôsobovať samotnej úlohe. Pri jazykových modeloch sa často optimalizuje perplexita alebo všeobecná presnosť, ale pri VLA modeloch je relevantnejšie, či sa zachová správna akcia. ActQuant tak zapadá do trendu úlohovo orientovaných optimalizácií, kde sa infraštruktúrne rozhodnutia robia podľa konečného správania systému, nie iba podľa abstraktných metrík.

Limitácie sú rovnako dôležité ako čísla. Ide o predtlač, nie o štandardizovaný priemyselný benchmark, a výsledky sú viazané na konkrétne modely, datasety, robotické nastavenie a runtime. Sub-4-bitové nasadenie môže byť citlivé na distribučný posun, iné senzory, iný robot alebo inú triedu úloh. V bezpečnostne citlivých scenároch preto nestačí prevziať kompresný pomer; treba zopakovať testy na cieľovej platforme.

Pre produktové tímy je ďalšia otázka integrácia do existujúcich robotických stackov. Ak sa nízkobitový runtime nedá spoľahlivo napojiť na plánovanie, bezpečnostné vrstvy a telemetriu, samotná kompresia zostane skôr laboratórnym výsledkom než nasaditeľnou výhodou.

Aj tak je práca dobrým signálom pre smer vývoja. Ak majú byť multimodálni agenti a robotické modely nasadzované mimo laboratória, musia byť lacnejšie, rýchlejšie a menej závislé od veľkých GPU. ActQuant ukazuje jednu možnú cestu: namiesto všeobecného znižovania presnosti skúmať, ktoré časti modelu sú naozaj kritické pre akciu a tam presnosť šetriť opatrnejšie.

Zdroje

ActQuant sľubuje sub-4-bitové robotické modely bez veľkého pádu výkonu

Ďalšie články k téme

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM