Tag

#multimodálne modely

Všetky publikované články, v ktorých sa téma multimodálne modely objavuje ako dôležitý kontext. Aktuálne 13 textov v archíve.

Modely22. júna 2026

PP-OCRv6 prináša na Hugging Face viacjazyčné OCR v malých modeloch

PaddlePaddle zverejnil na Hugging Face novú generáciu univerzálneho OCR modelu PP-OCRv6. Rodina cieli na praktické čítanie textu v dokumentoch, obrazovkách aj scénach a škáluje od 1,5 po 34,5 milióna parametrov.

Modely17. júna 2026

MolmoMotion spája jazyk a 3D predikciu pohybu pre robotiku

Ai2 a Hugging Face predstavili MolmoMotion, súbor modelov, dát a benchmarkov pre predpovedanie 3D pohybu podľa jazykových inštrukcií. Cieľom je lepšie prepájať vizuálne vnímanie, plánovanie a robotické akcie.

Modely16. júna 2026

Gemma 4 prichádza na Amazon Bedrock ako otvorený multimodálny model pre firmy

AWS sprístupnilo rodinu modelov Gemma 4 v službe Amazon Bedrock. Pre vývojárov je dôležité najmä spojenie otvorených váh, dlhého kontextu, volania funkcií a spravovanej infraštruktúry s podnikovými kontrolami.

Výskum9. júna 2026

Preprint rozoberá, čo adversariálne dolaďovanie mení vo vision transformeroch

Nová práca z MIT analyzuje, ako adversariálne fine-tuningové postupy ovplyvňujú vision transformery pri rozmazaní, zaostrení a iných obrazových poruchách. Zlepšenie robustnosti sa podľa autorov neprenáša automaticky na nevidené typy porúch.

Modely4. júna 2026

NVIDIA ukazuje Nemotron 3.5 Content Safety pre multimodálne bezpečnostné politiky

Nový príspevok NVIDIA na Hugging Face opisuje Nemotron 3.5 Content Safety, rodinu modelov pre nastaviteľné posudzovanie textu aj obrazu. Dôležitá je najmä možnosť prispôsobiť bezpečnostné pravidlá podnikovým a regionálnym požiadavkám.

Produkty2. júna 2026

Amazon Nova 2 Lite ukazuje objektovú detekciu cez prompt a štruktúrovaný JSON

AWS opisuje, ako využiť Amazon Nova 2 Lite na detekciu objektov v obraze. Príklad kombinuje Bedrock, Lambda a API Gateway a ukazuje trend, v ktorom multimodálne modely nahrádzajú časť úzko špecializovaných vision pipeline.

Výskum22. mája 2026

Apple navrhuje VSAS-Bench pre vizuálnych asistentov, ktorí reagujú v reálnom čase

Nový benchmark od Apple skúša posunúť hodnotenie video-jazykových modelov od offline otázok k priebežným asistentom. Sleduje nielen správnosť odpovedí, ale aj načasovanie, stabilitu a schopnosť reagovať počas živého prúdu obrazov.

Výskum21. mája 2026

Artifact-Bench testuje, či multimodálne modely vidia chyby v AI videách

Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.

Produkty21. mája 2026

Strands Evals dostáva multimodálnych hodnotiteľov pre obrazové výstupy

AWS ukazuje MLLM-as-a-judge pre úlohy, kde model odpovedá na obrázky, dokumenty alebo grafy. Cieľom je overovať, či textový výstup naozaj sedí so zdrojovým obrazom.

Výskum14. mája 2026

SpatialBabel ukazuje, že VLM lepšie chápu priestor cez 3D primitíva než cez priame otázky

Nový preprint tvrdí, že multimodálne modely vedia priestorovo uvažovať spoľahlivejšie vtedy, keď si scénu preložia do kódu s kockami, guľami a valcami, než keď majú odpovedať priamo na zdanlivo jednoduché otázky o obraze.

Výskum12. mája 2026

Apple v BalCapRL učí multimodálne modely opisovať obrázky presnejšie a bez balastu

Apple ukazuje, že pri titulkovaní obrázkov nestačí tlačiť len na dĺžku a detail. BalCapRL kombinuje viac cieľov naraz, aby multimodálne modely menej halucinovali a písali použiteľnejšie popisy.

Výskum11. mája 2026

ABRA chce zmerať radiologických agentov v reálnom prehliadači snímok

Nový benchmark ABRA neposudzuje len to, či model vie odpovedať na otázku k obrázku, ale či sa dokáže orientovať v reálnom rádiologickom prostredí, prepínať série, hýbať sa po rezoch a vytvoriť štruktúrovaný výstup, aký by mal zmysel aj mimo laboratória.