VideoFlexTok komprimuje video pružným počtom tokenov namiesto pevnej mriežky
Apple a EPFL predstavujú VideoFlexTok, tokenizér pre video modely s premenlivou dĺžkou reprezentácie. Má zachytiť najprv sémantiku a pohyb, až potom jemné detaily, čo môže znížiť cenu tréningu generatívnych video modelov.