aifeed.skAI Feed
AI modely3 min čítania

NVIDIA Cosmos 3 prináša otvorený omni-model pre fyzickú AI

NVIDIA a Hugging Face sprístupnili Cosmos 3 ako jednotný model pre generovanie svetov, fyzikálne uvažovanie a akcie. Pre robotiku a autonómne systémy je dôležité najmä to, že časť modelov, dát a nástrojov je dostupná otvorene.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
Hugging Face / NVIDIA

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI modely a opiera sa o 3 zdroje.

NVIDIA zverejnila Cosmos 3, novú generáciu modelov pre takzvanú fyzickú AI, a Hugging Face k nej sprístupnil modely, dátové sady aj integračné návody. Najdôležitejšou zmenou oproti predchádzajúcim vydaniam Cosmosu je, že nejde iba o ďalší video model ani o samostatný nástroj na simuláciu. Cosmos 3 je postavený ako omni-model: v jednej architektúre má spájať generovanie sveta, porozumenie scéne, fyzikálne uvažovanie a tvorbu akcií, ktoré môžu neskôr slúžiť robotom, autonómnym vozidlám alebo systémom pre inteligentné priestory.

Pre bežného čitateľa to znamená, že model sa nesnaží len nakresliť pekne vyzerajúce video. Jeho ambíciou je vytvoriť reprezentáciu prostredia, v ktorej sa dá uvažovať o pohybe, príčinách a následkoch, priestorových vzťahoch a o tom, aký zásah by mal systém vykonať. V praxi môže ísť o scénu z cesty, skladovej haly alebo robotického pracoviska. Vývojár môže zadať text, obrázok, video alebo akčný vstup a model má vedieť vytvoriť realistické pokračovanie, vysvetliť situáciu alebo navrhnúť ďalší krok.

Hugging Face opisuje, že Cosmos 3 používa architektúru označenú ako Mixture-of-Transformers. V nej sa rôzne modality najprv zakódujú vlastnými enkódermi a následne sa premietnu do spoločného priestoru. Časť modelu pracuje autoregresívne, teda podobne ako jazykový model pri postupnom predikovaní tokenov, a časť používa difúzny proces vhodný na generovanie obrazu, videa alebo zvuku. Tieto dve vetvy majú odlišné parametre, ale zdieľajú pozornosť, takže model môže prechádzať medzi porozumením a generovaním bez toho, aby bolo nutné skladať viacero samostatných systémov.

Vydanie obsahuje dve hlavné veľkosti. Cosmos 3 Nano je menší variant s 8-miliardovým reasonerom a 8-miliardovým generátorom, určený pre efektívnejšiu inferenciu na výkonných pracovných staniciach. Cosmos 3 Super je väčší variant s 32-miliardovým reasonerom a 32-miliardovým generátorom, zameraný na rozsiahlu syntetickú tvorbu dát a výskum. V číslach to nie je len kozmetický rozdiel: menší model má znižovať vstupnú bariéru pre tímy, ktoré chcú experimentovať lokálnejšie, kým väčší model má slúžiť na náročnejšie simulačné a dátové scenáre.

Dôležité je aj to, že súčasťou balíka nie sú iba váhy modelov. NVIDIA a Hugging Face uvádzajú integráciu s knižnicou Diffusers, modelové karty, licenčné informácie, skripty na dodatočné dotrénovanie a otvorené syntetické dátové sady. Tie pokrývajú robotické scény, fyzikálne interakcie, priestorové uvažovanie, pohyb digitálnych ľudí, jazdné situácie a skladové operácie. Pre fyzickú AI sú dáta často väčším úzkym hrdlom než samotný model: robot sa nedá lacno a bezpečne skúšať v nekonečnom množstve reálnych situácií. Ak simulované dáta pokryjú aj zriedkavé a nebezpečné prípady, môžu zrýchliť vývoj bez nutnosti opakovane riskovať hardvér alebo ľudí.

Praktický dopad pre vývojárov je v tom, že Cosmos 3 sa dá použiť v známejšom ekosystéme. Integrácia cez Diffusers umožňuje spúšťať generatívne pipeline podobne ako pri obrazových a video modeloch, pričom NVIDIA pridáva aj samostatný framework a návody pre post-tréning. To je podstatné najmä pri robotike: univerzálny model môže vedieť vytvoriť realistickú scénu, ale konkrétny robot, kamera, uchopovač alebo skladová konfigurácia budú často vyžadovať ďalšie prispôsobenie na vlastných dátach.

Zároveň treba čítať vydanie realisticky. Otvorené váhy a modelové karty neznamenajú, že každý startup zrazu dostane lacný a spoľahlivý robotický mozog. Fyzická AI je citlivá na rozdiel medzi simuláciou a realitou, na bezpečnostné limity a na presnosť pri okrajových prípadoch. Ak model vygeneruje presvedčivé video jazdy, ešte to samo osebe nedokazuje, že autonómny systém zvládne zodpovedné rozhodovanie v premávke. Cosmos 3 je preto skôr infraštruktúrny krok: dáva výskumníkom a firmám spoločný základ, na ktorom môžu testovať fyzikálne uvažovanie, generovať tréningové dáta a porovnávať metódy.

Pre trh je vydanie zaujímavé aj tým, že posúva otvorený modelový ekosystém za textové a obrazové modely. Veľké laboratóriá dnes súperia nielen v tom, kto má najlepší chatbot, ale aj v tom, kto poskytne stavebné bloky pre robotiku, autonómnu dopravu, priemyselnú automatizáciu a simulované tréningové prostredia. Cosmos 3 ukazuje, že NVIDIA chce v tejto vrstve hrať dvojitú rolu: dodávať hardvér a inferenčné služby, ale zároveň ovplyvňovať aj samotné modely a dátové štandardy pre fyzickú AI.

Pre slovenské firmy a výskumné tímy je najbližší význam skôr experimentálny než okamžite produkčný. Tímy pracujúce so strojovým videním, robotickými ramenami, skladovou automatizáciou alebo priemyselnou bezpečnosťou môžu získať nový spôsob, ako lacnejšie vytvárať testovacie scény a skúmať zriedkavé situácie. Najväčšou otázkou bude, či sa otvorený balík okolo Cosmosu 3 stane dostatočne reprodukovateľným a ekonomicky dostupným na to, aby z neho nevznikol len výklad veľkého dodávateľa, ale reálne používaná platforma pre fyzickú AI.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie