AI výskum3. júna 20263 min čítania

DPO mimo chatbotov: Hugging Face blog ukazuje použitie pri štruktúrovanom OCR

Dharma-AI opisuje, ako sa dá Direct Preference Optimization použiť na potláčanie opakovacích slučiek v OCR modeloch, nie iba na ladenie chatbotových odpovedí.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#Hugging Face #OCR #DPO #DharmaOCR #preferenčné ladenie

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Direct Preference Optimization, známe pod skratkou DPO, sa často spája s dolaďovaním chatbotov podľa ľudských preferencií. Nový technický text na Hugging Face blogu ukazuje iný prípad: použitie DPO pri štruktúrovanom OCR, teda pri prevode obrazu dokumentu na presne formátovaný textový výstup. Dharma-AI opisuje, že preferenčné ladenie nemusí byť iba o tom, či odpoveď pôsobí príjemnejšie alebo užitočnejšie. Môže cieliť aj na objektívne merateľné zlyhania modelu.

Konkrétnym problémom je textová degenerácia. Pri nej model namiesto korektného prepisu dokumentu spadne do opakovacej slučky, začne generovať rovnaké časti textu alebo pokračuje v nezmyselnom vzore až po limit tokenov. V produkčnom OCR je to kritická chyba: výstup síce môže vyzerať formálne ako text, ale pre fakturáciu, právne dokumenty, účtovníctvo alebo archívne spracovanie je nepoužiteľný. Bežné metriky presnosti nemusia takúto poruchu dostatočne vystihnúť, najmä ak sa vyskytuje zriedkavo, ale má vysokú prevádzkovú cenu.

Autori blogu vychádzajú z pipeline DharmaOCR pre brazílsku portugalčinu. Podľa ich vyhodnotenia sa miera degenerácie pri neupravených modeloch pohybovala od menej než jedného percenta až po viac než 33 percent v závislosti od modelovej rodiny. Supervised Fine-Tuning, teda učenie na správnych príkladoch, degeneráciu znížilo, no nie vždy ju odstránilo natoľko, aby bol model spoľahlivý v nasadení. DPO ako druhá fáza po SFT znížilo degeneráciu vo všetkých testovaných rodinách.

Najzaujímavejším výsledkom je metodika. Dharma-AI nepoužíva iba všeobecné páry typu „lepšia odpoveď“ a „horšia odpoveď“. Ako odmietnuté príklady berie priamo zlyhania, ktoré vyprodukoval už doladený model. Správny prepis dokumentu je označený ako preferovaný výstup a opakovacia slučka toho istého modelu ako odmietnutý výstup. Model sa tak neučí len napodobňovať dobré odpovede, ale aj vzďaľovať sa od konkrétnej triedy vlastných chýb.

To je dôležitý rozdiel oproti samotnému SFT. Supervised Fine-Tuning zvyšuje pravdepodobnosť správnych sekvencií tokenov, učí formát, jazyk, štruktúru odpovede a doménový slovník. Nemá však priamy signál, že konkrétne celé dokončenie je zlé preto, lebo spadlo do degenerácie. DPO pracuje na úrovni dokončených výstupov a optimalizuje rozdiel medzi preferovaným a odmietnutým riešením. V článku sa to opisuje ako praktická forma implicitného učenia proti neželanému správaniu.

Podľa zverejnených výsledkov dosiahlo DPO priemerné zníženie degenerácie oproti SFT o 59,4 percenta, s maximom 87,6 percenta v jednej modelovej rodine. Ešte dôležitejšie je tvrdenie, že v testoch žiadna rodina modelov po DPO degeneráciu nezhoršila. Pri produkčných systémoch je takáto stabilita často cennejšia než samotný najlepší výsledok, pretože naznačuje, že postup môže byť opakovateľný aj mimo jedného modelu.

Praktický dopad siaha za OCR. Ak je zlyhanie modelu jasne identifikovateľné, opakovateľné a dá sa automaticky alebo poloautomaticky skórovať, môže sa stať tréningovým signálom. To sa týka extrakcie štruktúrovaných údajov, generovania JSON výstupov, agentických tool-callov, prevodu tabuliek, kódových opráv alebo multimodálnych úloh, kde existuje správny formát a jasná trieda zlých výstupov. DPO sa tak posúva z oblasti subjektívneho alignments do oblasti inžinierskeho riadenia chýb.

Zároveň nejde o zázračnú náhradu za validáciu. OCR systém stále potrebuje testy na rôznych typoch dokumentov, kontrolu jazykových variantov, limity na halucinácie a monitoring po nasadení. Preferenčné ladenie môže znížiť konkrétny typ zlyhania, ale nevyrieši všetky chyby extrakcie. Silná stránka prístupu je inde: ukazuje, že vývojári nemusia modelové zlyhania iba filtrovať na výstupe alebo maskovať inferenčnými pravidlami. Môžu ich vracať späť do tréningu ako negatívne príklady.

Pre open-source komunitu je zaujímavé aj to, že príbeh stojí na relatívne špecializovaných menších modeloch, nie na najväčších frontier systémoch. V podnikovej praxi býva často výhodnejšie mať menší model, ktorý spoľahlivo robí úzku úlohu, než univerzálny model s drahým dohľadom. Ak sa DPO osvedčí ako spôsob, ako potláčať konkrétne produkčné chyby malých vizuálno-jazykových modelov, môže sa stať dôležitým krokom v bežnom MLOps cykle pre dokumentovú AI.

Zdroje

DPO mimo chatbotov: Hugging Face blog ukazuje použitie pri štruktúrovanom OCR

Ďalšie články k téme

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM

Apple skúša trénovať API agentov bez hotového prostredia

Apple zrýchľuje generovanie videa cez kalibrovanú riedku pozornosť