AI výskum2. júla 20263 min čítania

VideoFlexTok komprimuje video pružným počtom tokenov namiesto pevnej mriežky

Apple a EPFL predstavujú VideoFlexTok, tokenizér pre video modely s premenlivou dĺžkou reprezentácie. Má zachytiť najprv sémantiku a pohyb, až potom jemné detaily, čo môže znížiť cenu tréningu generatívnych video modelov.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Apple Machine Learning Research

#multimodálne AI #Apple #video modely #VideoFlexTok #tokenizácia

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Apple Machine Learning Research zverejnil prácu VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization, ktorá rieši jeden z menej viditeľných, no zásadných problémov generatívneho videa. Video modely nepracujú priamo s pixelmi v surovej podobe; najprv ich musia previesť na tokeny, teda komprimovanú reprezentáciu vhodnú pre ďalšie modelovanie. Spôsob tokenizácie pritom rozhoduje, koľko výpočtu bude tréning stáť a aké informácie sa model naučí zachovať.

Dnešný bežný prístup používa pri videu spatiotemporálnu mriežku. Zjednodušene povedané, video sa rozdelí na pravidelné bloky v priestore aj čase a každý blok sa reprezentuje tokenom. Tento postup je jednoduchý a kompatibilný s existujúcimi architektúrami, ale má nepríjemný dôsledok: model musí predikovať množstvo nízkoúrovňových detailov bez ohľadu na to, či sú pre konkrétny klip dôležité. Video s jednoduchým pohybom a video s bohatými detailmi tak môžu dostať podobne rigidný tokenový rozpočet.

VideoFlexTok namiesto toho používa premenlivú dĺžku tokenovej sekvencie a štruktúru od hrubého k jemnému. Prvé tokeny emergentne zachytávajú abstraktnejšie informácie, ako je význam scény a pohyb. Neskoršie tokeny dopĺňajú jemné vizuálne detaily. Takáto reprezentácia umožňuje prispôsobiť počet tokenov potrebám downstream úlohy: niekedy stačí úspornejší opis, inokedy je vhodné pridať detaily. Dôležité je, že dekodér založený na generatívnom flow má vedieť vytvoriť realistickú rekonštrukciu z rôzneho počtu tokenov.

Autori uvádzajú výsledky na triedovo aj textovo podmienených generatívnych úlohách. Podľa zhrnutia Apple vedie VideoFlexTok k efektívnejšiemu tréningu než pevné 3D grid tokeny. Konkrétne má dosahovať porovnateľnú generačnú kvalitu pri 5-krát menšom modeli, v porovnaní 1,1 miliardy parametrov oproti 5,2 miliardy. Pri dlhšom videu ukazujú tréning text-to-video modelu na 10-sekundových klipoch s 81 snímkami pri použití 672 tokenov, čo je 8-krát menej než porovnateľný mriežkový tokenizér.

Tieto čísla sú dôležité, pretože video patrí medzi najdrahšie modality. Každá sekunda pridáva nové snímky, priestorové detaily a časové vzťahy. Ak tokenizér zníži počet tokenov bez dramatickej straty kvality, môže to ovplyvniť cenu tréningu, rýchlosť inferencie aj dostupnosť dlhších video modelov. Pre firmy vyvíjajúce multimodálne systémy je tokenizácia podobne strategická ako samotný generatívny model: zlý kompresný krok prenáša svoje limity do celého stacku.

Práca má význam aj pre aplikácie mimo klasickej tvorby videa. Efektívnejšie video tokeny sa môžu hodiť pri robotike, autonómnych systémoch, analýze záznamov, priestorovom porozumení alebo multimodálnych agentoch, ktorí potrebujú pracovať s dlhšími sekvenciami udalostí. Keď reprezentácia najprv zachytí pohyb a sémantiku, môže byť užitočnejšia pre plánovanie než tokeny, ktoré iba rovnomerne kopírujú lokálne vizuálne bloky.

Zároveň je potrebné odlíšiť výskumný výsledok od hotového produktu. VideoFlexTok je publikovaná výskumná práca, nie oznámenie nového spotrebiteľského nástroja. Otvorené zostáva, ako sa podobná tokenizácia správa pri veľmi rozmanitých dátach, pri dlhších scénach s komplikovanou fyzikou, pri jemných textových detailoch vo videu alebo pri bezpečnostných a autorských kontrolách. Úspora tokenov sama osebe nezaručuje, že model porozumie všetkému, čo je pre používateľa alebo regulátora dôležité.

Napriek tomu ide o dobrý signál, kam sa posúva výskum multimodálnych modelov. Súťaž už nie je len o väčšom počte parametrov alebo vyššom rozlíšení výstupu. Čoraz viac záleží na tom, ako sa multimodálne dáta reprezentujú pred samotným generovaním. VideoFlexTok ukazuje, že pružná, hierarchická reprezentácia videa môže byť cestou k lacnejším a dlhším video modelom, ktoré nemusia míňať rovnaký tokenový rozpočet na každý detail každej scény.

Pre trh s nástrojmi na video AI je takáto práca pripomienkou, že viditeľné demo nie je celý príbeh. Za každým dlhším a lacnejším videom stojí rozhodnutie, ako reprezentovať čas, pohyb a detaily pred tým, než generátor začne skladať výsledný obraz. Tokenizér preto môže byť jedným z miest, kde sa rozhodne, či budú nové video modely dostupné len v drahých cloudoch, alebo aj v širších produkčných workflow.

Zdroje

VideoFlexTok komprimuje video pružným počtom tokenov namiesto pevnej mriežky

Ďalšie články k téme

MemoryLLM od Apple skúma, či sa vrstvy FFN dajú čítať ako pamäť transformera

Apple ukazuje Ctrl-R: cielený tréning má učiť modely pestrejšie uvažovanie

FoGS filtruje syntetické klinické dáta pre modely prežívania