AI modely23. júna 20263 min čítania

Mistral OCR 4 pridáva dokumentom štruktúru, polohu aj skóre istoty

Mistral predstavil OCR 4, nový model na spracovanie dokumentov so 170 jazykmi, bounding boxmi, klasifikáciou blokov a nasadením cez API alebo samostatný kontajner.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#RAG #OCR #Mistral AI #dokumentová inteligencia #európska AI

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI modely a opiera sa o 1 zdroj.

Mistral AI predstavil Mistral OCR 4, novú generáciu modelu na čítanie a porozumenie dokumentom. Firma ho neprofiluje iba ako ďalší nástroj na prevod obrázka alebo PDF na text. Hlavná zmena je v tom, že model vracia aj štruktúru dokumentu: kde sa text nachádza, aký typ bloku predstavuje, s akou istotou bol rozpoznaný a ako sa dá výsledok použiť v ďalších systémoch vyhľadávania alebo automatizácie.

Pre podnikové nasadenie je to dôležitejšie než samotné percento presnosti OCR. Mnohé dnešné workflow zlyhávajú nie preto, že systém neprečíta slová, ale preto, že stratí kontext. Faktúra, zmluva, laboratórny protokol alebo naskenovaný formulár nie sú len lineárny text. Obsahujú tabuľky, podpisy, nadpisy, poznámky pod čiarou, rovnice a rozloženie, ktoré určuje význam. OCR 4 preto pridáva bounding boxy, teda súradnice textových prvkov, klasifikáciu blokov a inline skóre istoty.

Mistral uvádza podporu pre 170 jazykov v desiatich jazykových skupinách. To posúva model mimo typického anglicko-centrického použitia a robí z neho zaujímavý komponent pre organizácie, ktoré pracujú s viacjazyčnými archívmi, verejnými dokumentmi alebo regionálnymi databázami. Model má prijímať bežné podnikové formáty vrátane PDF, dokumentov, prezentácií a otvorených formátov. Výstupom môže byť extrahovaný text aj Markdown so zachovanou štruktúrou.

Novinkou s praktickým dopadom sú skóre istoty na úrovni strán, slov a blokov. Pri citlivých dokumentoch nestačí dostať odpoveď; používateľ alebo následný agent musí vedieť, ktoré časti sú spoľahlivé a ktoré si vyžadujú kontrolu. Práve tieto hodnoty môžu rozhodovať o tom, či sa výsledok pustí do automatického spracovania, pošle človeku na revíziu alebo sa použije iba ako pomocný signál.

Mistral tvrdí, že OCR 4 dosiahol najvyššie skóre 85,20 na OlmOCRBench a že v ľudskom porovnávaní bol preferovaný pred testovanými konkurenčnými systémami s priemernou mierou výhier 72 %. Tieto čísla treba brať ako tvrdenia dodávateľa, no ich smer je zrozumiteľný: dokumentové modely sa posúvajú od lacnej extrakcie textu k spoľahlivejšej vrstve pre vyhľadávanie, RAG a agentické spracovanie.

Dôležitá je aj forma nasadenia. OCR 4 má byť dostupný cez Mistral API, Mistral Studio, Amazon SageMaker, Microsoft Foundry a neskôr aj cez Snowflake Parse Document. Zároveň má bežať v jednom kontajneri pre organizácie, ktoré potrebujú ponechať dokumenty vo vlastnom prostredí. To je podstatné najmä pri zdravotníctve, práve, financiách, verejnej správe alebo pri európskych zákazníkoch, kde je rezidencia dát a auditovateľnosť častou podmienkou.

Cenovo Mistral uvádza 4 doláre za tisíc strán pri OCR API, 2 doláre za tisíc strán pri batch API a 5 dolárov za tisíc strán v režime Document AI. Samotná cena však nebude jediným kritériom. Pri väčších archívoch bude rozhodovať aj to, koľko manuálnych opráv systém ušetrí, ako dobre sa dá napojiť na existujúce vyhľadávanie a či vie dodať dôkazy pre audit. Bounding boxy a confidence skóre sú v tomto smere rovnako dôležité ako benchmark.

OCR 4 zapadá aj do širšieho smeru, ktorý Mistral buduje okolo dokumentovej inteligencie a vyhľadávania. Model môže slúžiť ako vstupná vrstva pre Search Toolkit, RAG systémy a agentov, ktorí pracujú s podnikových obsahom. Ak agent vypĺňa formulár, kontroluje zmluvu alebo pripravuje podklad pre compliance tím, potrebuje presne vedieť, z ktorej časti dokumentu informácia pochádza. To znižuje riziko halucinácií aj počet sporov o to, prečo systém vyvodil konkrétny záver.

Pre vývojárov a dátové tímy je najväčší prínos v tom, že OCR prestáva byť izolovaná predspracovacia úloha. Stáva sa súčasťou pipeline, ktorá môže produkovať citovateľné bloky, metadáta a skóre dôveryhodnosti. To umožňuje lepšie chunkovanie, presnejšie vyhľadávanie a bezpečnejšie human-in-the-loop revízie. Ak sa tvrdenia Mistralu potvrdia v reálnych nasadeniach, OCR 4 môže byť zaujímavým európskym komponentom pre organizácie, ktoré chcú dokumentovú AI prevádzkovať pod vlastnou kontrolou.

Zdroje

Mistral AI: Mistral OCR 4

Mistral OCR 4 pridáva dokumentom štruktúru, polohu aj skóre istoty

Ďalšie články k téme

PP-OCRv6 prináša na Hugging Face viacjazyčné OCR v malých modeloch

Agentické RAG v nemocnici: preprint ukazuje, kde klinická extrakcia funguje a kde sa láme

Bedrock AgentCore dostáva širší prístup ku kontextu a spätným väzbám pre agentov