AI výskum7. mája 20265 min čítania

Apple predstavilo SFI-Bench, nový test pre multimodálne modely, ktorý posúva hodnotenie od polohy objektov k ich...

Apple Machine Learning Research predstavilo benchmark SFI-Bench, ktorý testuje, či multimodálne modely chápu nielen polohu objektov, ale aj ich funkciu. Nový video set s viac než 1700 otázkami má odhaliť, ako ďaleko sú dnešné MLLM od prakticky použiteľnej priestorovej inteligencie pre agentov a robotiku.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Apple Machine Learning Research

#robotika #benchmarky #Apple #počítačové videnie #SFI-Bench #multimodálne LLM #priestorové uvažovanie #funkčné uvažovanie

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Apple Machine Learning Research zverejnilo v máji 2026 novú výskumnú prácu pre konferenciu CVPR s názvom „From Where Things Are to What They’re For: Benchmarking Spatial–Functional Intelligence for Multimodal LLMs“. Jadrom práce je benchmark SFI-Bench, teda Spatial-Functional Intelligence Benchmark, ktorý sa nesústredí iba na to, či multimodálny model dokáže rozpoznať objekty a ich polohu v priestore, ale aj na to, či chápe ich funkciu a praktický význam v konkrétnom prostredí. Už samotný názov práce naznačuje ambíciu posunúť hodnotenie modelov od jednoduchého „kde sa čo nachádza“ k zložitejšiemu „na čo to slúži“.

Autori vychádzajú z pozorovania, že skutočná priestorová inteligencia multimodálnych agentov nemôže zostať iba pri nízkoúrovňovej geometrii. Model môže vedieť, kde je stolička, dvere alebo kuchynská linka, no to ešte neznamená, že rozumie tomu, ako sa tieto objekty používajú, aké majú vzťahy k činnostiam človeka a ako sa ich význam mení podľa kontextu. Práve tu podľa Apple vzniká rozdiel medzi základným vizuálnym vnímaním a vyššou, ukotvenou kogníciou, ktorá je potrebná pre systémy schopné konať v reálnom svete. Bez tejto vrstvy by multimodálne modely vedeli priestor len opisovať, nie mu skutočne rozumieť.

Výskumníci zároveň otvorene hovoria o limite doterajších benchmarkov. Existujúce testy, medzi nimi aj spomínaný VSI-Bench, podľa nich dobre preverujú základnú geometrickú stránku úlohy, teda či model zvláda lokalizáciu, orientáciu a iné nižšie úrovne priestorového uvažovania. Chýba im však schopnosť merať vyššie formy uvažovania, ktoré prepájajú vizuálnu scénu s účelom predmetov, s pamäťou a s praktickým rozhodovaním. Inými slovami, doterajšie metriky dokážu odhaliť, či model „vidí“, ale už menej presne to, či „chápe“, čo sa v prostredí deje a ako by mal na základe videného konať.

SFI-Bench má túto medzeru vyplniť. Apple ho opisuje ako video benchmark postavený na viac než 1700 otázkach odvodených z rozmanitých egocentrických vnútorných skenov. Dôležité je práve to, že nejde o statické obrázky, ale o videá z pohľadu prvej osoby v interiéroch, čo sa viac približuje podmienkam, v akých by sa mali pohybovať budúci asistenti, embodied agenti alebo robotické systémy. Egocentrické snímanie zároveň núti model pracovať s postupne nadobúdanými informáciami, s orientáciou v priestore a s pamäťou o tom, čo už videl a ako to súvisí s aktuálnou situáciou.

Benchmark podľa autorov systematicky hodnotí dve komplementárne dimenzie pokročilého uvažovania. Prvou je štruktúrované priestorové uvažovanie, teda schopnosť pochopiť zložitejšie rozloženie priestoru a vytvoriť si koherentnú reprezentáciu scény. Druhou je funkčné uvažovanie, pri ktorom model odhaduje affordancie objektov, teda na čo sa dajú použiť, a ich kontextovo podmienenú užitočnosť. Táto kombinácia je podstatná: agent nemusí iba vedieť, že v miestnosti je skrinka alebo zásuvka, ale aj kedy a prečo je relevantná pre riešenie úlohy. Presne na takomto prepojení medzi videním, pamäťou a inferenciou stojí myšlienka grounded intelligence, teda inteligencie ukotvenej v reálnom svete.

Apple uvádza aj konkrétne typy úloh, ktoré majú modely preveriť v praxi. SFI-Bench obsahuje napríklad podmienené počítanie, viacskokové relačné uvažovanie, funkčné párovanie objektov či riešenie problémov opreté o znalosti. To znamená, že model nemá odpovedať iba na jednoduchú otázku o prítomnosti predmetu, ale musí často spojiť viac pozorovaní, vybaviť si predchádzajúce časti videa a doplniť praktické znalosti o použití objektov a prostredia. Takéto zadania sú výrazne bližšie reálnym situáciám než tradičné testy, v ktorých stačí jednorazovo identifikovať objekt alebo jeho polohu v obraze.

Pre oblasť multimodálnych agentov je tento posun dôležitý najmä preto, že ukazuje, kde sa dnes láme rozdiel medzi efektnou demonštráciou a skutočne použiteľným systémom. Agent, ktorý má asistovať človeku v domácnosti, na pracovisku alebo v inom fyzickom prostredí, potrebuje rozumieť nielen vizuálnym vzťahom, ale aj funkčnej logike priestoru. Musí vedieť, že niektoré predmety sa používajú spoločne, že určité objekty sú určené na konkrétne zásahy a že prostredie má praktickú organizáciu, ktorú nemožno odvodiť iba z geometrie. Benchmark ako SFI-Bench preto môže fungovať ako oveľa realistickejší lakmusový papierik pre to, či sa multimodálne modely približujú k použiteľnej agentickej inteligencii.

Ešte výraznejší význam má táto práca pre robotiku. Robot v interiéri nepotrebuje iba zmapovať priestor, ale aj porozumieť tomu, ktoré objekty môžu pomôcť pri úlohe, ako sa bežne používajú a aké akcie dávajú zmysel v konkrétnom kontexte. Rozdiel medzi tým, že systém lokalizuje drez, a tým, že chápe jeho úlohu pri čistení alebo príprave činnosti, je z pohľadu praktického nasadenia zásadný. Ak benchmark odhalí slabiny modelov práve v prepájaní priestorovej pamäte, funkčného uvažovania a externých znalostí, poskytne vývojárom aj výskumníkom presnejšiu mapu toho, čo treba zlepšiť, aby sa z multimodálnych modelov stali spoľahlivejšie robotické mozgy.

Zaujímavé je aj to, že výsledky experimentov podľa autorov neukazujú triumfálny obraz súčasných modelov. Naopak, Apple hovorí o konzistentných ťažkostiach dnešných MLLM pri integrácii priestorovej pamäte s funkčným a externým poznaním. To naznačuje, že aj keď sa multimodálne modely v posledných rokoch citeľne zlepšili vo vizuálnom rozpoznávaní a v odpovedaní na otázky k obrázkom či videu, ich schopnosť vytvoriť si hlbšie, prakticky použiteľné porozumenie scéne je stále úzkym hrdlom. Práve takýto typ zistenia býva pre výskum cennejší než samotné skóre, pretože pomáha presnejšie pomenovať, čo dnešným systémom chýba.

SFI-Bench tak možno čítať ako signál širšieho posunu v tom, ako sa bude hodnotiť pokrok multimodálnej AI. Nestačí už merať len presnosť rozpoznávania alebo orientáciu v priestore; dôležité bude aj to, či model vie priestor interpretovať cez účel objektov, činností a problémov, ktoré sa v ňom odohrávajú. Ak sa tento smer ujme, môže ovplyvniť vývoj benchmarkov, tréningových dát aj architektúr pre budúcich multimodálnych agentov. Apple týmto výskumom neprináša nový spotrebiteľský produkt, ale skôr výskumný nástroj, ktorý môže pomôcť odhaliť, prečo je cesta k naozaj ukotveným agentom a robotom stále náročnejšia, než naznačujú bežné demo ukážky.

Zdroje

Apple predstavilo SFI-Bench, nový test pre multimodálne modely, ktorý posúva hodnotenie od polohy objektov k ich...

Ďalšie články k téme

Model sleduje laserové zváranie z obrazu a odhaduje hĺbku prieniku

GNN skúšajú čítať vlastnosti konečných grúp z Cayleyho grafov

CHISAO skúša hľadať viac vrcholov funkcie priamo na GPU