SpatialBabel ukazuje, že VLM lepšie chápu priestor cez 3D primitíva než cez priame otázky
Nový preprint tvrdí, že multimodálne modely vedia priestorovo uvažovať spoľahlivejšie vtedy, keď si scénu preložia do kódu s kockami, guľami a valcami, než keď majú odpovedať priamo na zdanlivo jednoduché otázky o obraze.