AI modely14. mája 20264 min čítania

IBM a Hugging Face uvádzajú Granite Embedding Multilingual R2 pre 200+ jazykov

Nová dvojica otvorených embeddingových modelov Granite Embedding Multilingual R2 s licenciou Apache 2.0 cieli na viacjazyčné vyhľadávanie, dlhý 32K kontext a nasadenie aj v menších produkčných zostavách, pričom menší 97M variant mieri na špičku medzi otvorenými modelmi pod hranicou sto miliónov parametrov.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: IBM Granite / Hugging Face

#Hugging Face #IBM #RAG #embeddingy #multilingual

IBM cez Hugging Face zverejnilo novú generáciu embeddingových modelov Granite Embedding Multilingual R2 a ide o vydanie, ktoré má význam ďaleko za rámec jedného ďalšieho model card záznamu. Embeddingy sú vrstva, na ktorej stojí veľká časť dnešného vyhľadávania, RAG systémov, odporúčania dokumentov aj párovania otázok s relevantným obsahom. Práve tu sa však firmy mimo angličtiny často zaseknú: malé modely bývajú rýchle, ale slabé vo viacerých jazykoch, a silnejšie modely zas rastú do rozmerov, ktoré sa v produkcii nasadzujú ťažšie. Granite sa snaží presne tento kompromis zmenšiť.

Balík R2 obsahuje dve nové verzie. Väčší model granite-embedding-311m-multilingual-r2 má 311 miliónov parametrov a 768-dimenzionálne reprezentácie. Menší granite-embedding-97m-multilingual-r2 prináša 384-dimenzionálne embeddingy pri 97 miliónoch parametrov. Zaujímavé je, že práve menší variant IBM stavia do pozície hlavného hrdinu vydania. Podľa zverejnených výsledkov dosiahol 60,3 bodu na MTEB Multilingual Retrieval a firma ho označuje za najsilnejší otvorený viacjazyčný retrievaľ model pod hranicou 100 miliónov parametrov. Väčší 311M model dosahuje 65,2 bodu a mieri medzi otvorenú špičku pod 500 miliónov parametrov.

Najdôležitejší praktický posun však nie je iba v benchmarkoch. Oba modely pokrývajú viac ako 200 jazykov, so zosilneným tréningom pre 52 jazykov vrátane slovenčiny, a zároveň pridávajú prácu s kódom v deviatich programovacích jazykoch. Pre podnikové vyhľadávanie je to zásadná kombinácia. Reálne dokumentové korpusy totiž zriedka vyzerajú ako čistá anglická zbierka blogpostov. Často obsahujú zmiešané jazyky, interné wiki, záznamy podpory, PDF exporty aj zdrojové kódy. Model, ktorý vie slušne mapovať prirodzený jazyk aj technický text bez nutnosti meniť infraštruktúru, má pre prax väčšiu cenu než ďalší laboratórny rekord v úzkej anglickej úlohe.

Ďalším silným signálom je posun na 32 768 tokenov kontextu. Oproti prvej generácii R1 ide podľa IBM o 64-násobné navýšenie. V embeddingových systémoch to nie je len marketingové číslo. Dlhší kontext znamená, že sa dá pracovať s rozsiahlejšími dokumentmi bez agresívneho sekania na drobné úseky, čo je dôležité napríklad pri právnych materiáloch, technickej dokumentácii alebo viacstranových reportoch. Zároveň to znižuje tlak na to, aby vývojár musel všetku kvalitu doháňať komplikovanou segmentáciou a následným spájaním výsledkov.

Architektonicky ide o výraznejší redizajn, než by názov R2 naznačoval. Predchádzajúca línia stavala na XLM-RoBERTa s 512-tokenovým oknom. Nová generácia prechádza na ModernBERT, čím získava modernejšie pozicovanie, lepšiu prácu s dlhými sekvenciami a podporu techník ako Flash Attention 2.0. IBM pritom riešilo aj menej viditeľný, ale veľmi dôležitý detail: tokenizer. Väčší model používa tokenizer Gemma 3, menší variant vychádza z GPT-OSS tokenizéra, ktorý bol následne prerezaný na kompaktnejšiu 180-tisícovú slovnú zásobu. Výsledkom má byť lepšia rovnováha medzi jazykovým pokrytím a veľkosťou embeddingovej tabuľky.

Pre enterprise nasadenia je zaujímavé aj to, ako IBM rámcuje dátový pôvod a licenčnú stránku. Firma tvrdí, že modely trénovala na zmesi vlastných kurátorovaných dát, verejných zdrojov a interných alebo syntetických datasetov a zároveň sa vedome vyhla známym korpusom s nekomerčnými obmedzeniami, ako je napríklad MS MARCO. Či tento prístup bude pre všetkých zákazníkov dostatočný, sa ešte ukáže, no už samotný fakt, že IBM túto tému dáva do popredia, odzrkadľuje posun trhu. Pri embeddingoch dnes nejde len o presnosť, ale aj o to, či je model právne a prevádzkovo pohodlný pre dlhodobé firemné nasadenie.

Vývojárov poteší aj pomerne nízka integračná bariéra. IBM uvádza, že modely fungujú priamo v sentence-transformers a transformers a ako takmer okamžitá náhrada sa dajú zapojiť aj do ekosystémov LangChain, LlamaIndex, Haystack či Milvus. Súčasťou vydania sú navyše ONNX a OpenVINO váhy optimalizované pre CPU inferenciu. To je dôležité najmä pre tímy, ktoré nechcú všetko tlačiť na GPU infraštruktúru alebo obsluhujú regionálne workloady s prísnejšími nákladovými limitmi. Menší 97M variant tak nehrá len rolu "o niečo slabšieho brata", ale skôr nástroja pre produkčné zostavy, kde je rozhodujúca latencia, cena a šírka jazykov.

Z pohľadu trhu prichádza Granite vo vhodnej chvíli. Veľká časť pozornosti sa stále sústreďuje na generatívne modely, no čoraz viac firiem zisťuje, že kvalita celej AI aplikácie často stojí a padá na retrieval vrstve. Ak sa používateľ v slovenčine, poľštine alebo arabčine nedostane k správnym dokumentom, ani najsilnejší generatívny model z toho neskôr neurobí presvedčivú odpoveď. Viacjazyčné embeddingy preto zostávajú jednou z najpraktickejších a najpodceňovanejších disciplín celej AI infraštruktúry.

Granite Embedding Multilingual R2 tak nevyzerá ako bombastický headline pre masový spotrebiteľský trh, ale ako presne ten typ vydania, ktorý môže zmeniť kvalitu reálnych produkčných systémov. Ak sa zverejnené výsledky potvrdia aj mimo interných porovnaní a komunita modely rýchlo otestuje v retrieval pipeline, IBM môže získať silnú pozíciu v segmente, kde sa doteraz často rozhodovalo medzi príliš veľkým modelom a príliš slabým modelom. Teraz pribudla tretia možnosť: relatívne malé, otvorené a viacjazyčne použiteľné embeddingy, ktoré sa dajú nasadiť bez veľkého infraštruktúrneho divadla.

Zdroje

IBM a Hugging Face uvádzajú Granite Embedding Multilingual R2 pre 200+ jazykov

Ďalšie články k téme

Hugging Face ukazuje, ako asynchrónne dávkovanie skracuje inferenciu LLM bez zmeny modelu

Amazon vo financiách skladá odpovede pre regulátorov cez Bedrock a RAG

AWS ukazuje, že multimodálne embeddings vedia čítať výrobu aj z výkresov a grafov