AI výskum25. mája 20263 min čítania

Pipeline pre katharevousu ukazuje, ako z historického OCR vytvoriť auditovateľné NLP dáta

Výskumníci pripravili reprodukovateľný Universal Dependencies štýl pipeline pre grécke parlamentné texty v katharevouse. Spája OCR rekonštrukciu, LLM asistovanú anotáciu, validáciu a pevné benchmarky.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#výskum #NLP #nízkozdrojové jazyky #digitálne archívy #LLM anotácia

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 4 zdroje.

Mnohé praktické prínosy umelej inteligencie nevznikajú na najväčších benchmarkoch, ale pri doménach, ktoré boli doteraz pre jazykové technológie príliš úzke, staré alebo dátovo zanedbané. Preprint A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text patrí presne do tejto kategórie. Zameriava sa na katharevousu, historickú formu gréčtiny používanú v právnych, administratívnych a parlamentných dokumentoch, ktorú dnešné NLP nástroje obsluhujú iba slabo.

Autori riešia konkrétny problém: ako zo skenovaných a OCR spracovaných parlamentných otázok z raného obdobia po páde gréckej vojenskej junty vytvoriť syntaktický zdroj, ktorý bude opakovateľný, kontrolovateľný a použiteľný pre tréning parserov. Nejde teda iba o aplikovanie veľkého modelu na archív. Jadrom práce je pipeline, ktorá spája rekonštrukciu citlivú na chyby OCR, anotáciu s pomocou LLM, automatickú validáciu, deterministické snapshoty vo formáte CoNLL-U, pevné trénovacie a testovacie rozdelenie a porovnanie viacerých rodín modelov.

Takýto dôraz na reprodukovateľnosť je dôležitý. Historické archívy často trpia tým, že jednotlivé kroky spracovania zostanú ručné, nezdokumentované alebo závislé od konkrétneho nástroja. Ak sa neskôr zmení OCR engine, anotátor alebo verzia jazykového modelu, výsledky sa ťažko porovnávajú. Tu je cieľom vytvoriť zmrazený referenčný súbor a pevný protokol, aby bolo jasné, čo sa meria a na akej verzii dát.

Výsledný automaticky validovaný referenčný súbor obsahuje 1 697 viet. Z nich 1 357 viet tvorí trénovaciu časť a 340 viet je držaných ako test. Na pomery veľkých jazykových modelov je to malé číslo, no pri historickom a špecifickom registri ide o cenný zdroj. Navyše autori nehodnotia len jeden model, ale porovnávajú existujúce grécke a starogrécke parsery, feature-based prístup, mBERT, XLM-R a vlastné tréningy v Stanza.

Výsledky ukazujú, že register textu má veľký význam. Najsilnejší externý baseline, spaCy pre gréčtinu, dosiahol podľa abstraktu LAS 0,4183. Najlepší štrukturálny parser založený na XLM-R dosiahol 0,8893 v presnosti slovných druhov, 0,7250 F1 pre závislostné relácie, 0,6098 UAS a 0,5162 LAS. Absolútny zisk v LAS oproti najlepšiemu externému baseline bol 0,0980. Nie sú to čísla, ktoré by naznačovali vyriešený problém, ale jasne ukazujú, že doménovo upravená pipeline vie posunúť kvalitu merateľne dopredu.

Zaujímavé je aj to, že transparentný feature-based model zostal konkurencieschopný pri značkovaní slovných druhov a relácií. V ére veľkých transformerov je to praktická pripomienka, že pri malých dátach, špecifickom registri a historickom jazyku môžu explicitné lexikálne a kontextové vlastnosti stále prinášať hodnotu. Pre archívne projekty to môže byť dôležité, pretože jednoduchšie modely sa ľahšie auditujú a ich chyby sa dajú často lepšie vysvetliť.

Použitie LLM asistovanej anotácie je v tejto práci zaujímavé najmä preto, že je zviazané so schémou a validáciou. Autori neprezentujú jazykový model ako autoritatívneho anotátora, ktorý sám vytvorí pravdu. Skôr ho vkladajú do workflow, kde výstupy musia prejsť štruktúrnymi pravidlami, validátormi a deterministickým exportom. To je zdravší model nasadenia LLM v dátovej kurácii: pomáhajú zrýchliť prácu, ale konečný zdroj zostáva kontrolovateľný.

Praktický dopad presahuje grécke parlamentné texty. Podobné problémy riešia národné knižnice, právne archívy, univerzity aj verejné inštitúcie v mnohých jazykoch. Majú skeny, čiastočné OCR, historické varianty pravopisu a texty, ktoré nepasujú do moderných parserov. Táto práca ukazuje šablónu: najprv stabilizovať dáta, potom vytvoriť schémovo obmedzenú anotáciu, následne ju validovať a až potom porovnávať modely na pevnom splite.

Pre slovenské a stredoeurópske prostredie je téma obzvlášť blízka. Aj tu existujú rozsiahle archívy právnych, administratívnych a parlamentných dokumentov s historickým jazykom, nejednotným OCR a slabou podporou v bežných NLP nástrojoch. Ak má AI pomáhať pri digitálnych humanitných vedách alebo verejnom prístupe k archívom, nestačí nasadiť univerzálny chatbot nad skeny. Treba vybudovať dátovú infraštruktúru, ktorá umožní spoľahlivé vyhľadávanie, syntaktickú analýzu a opakovateľné hodnotenie.

Najsilnejším posolstvom preprintu preto nie je jedno konkrétne skóre, ale metodika. Autori publikujú pipeline, kód, schému, zmrazené referenčné anotácie, pevné rozdelenie a per-model benchmark reporty ako otvorený sprievodný zdroj. V oblasti nízkozdrojových a historických jazykov je práve takáto auditovateľnosť často rozdielom medzi jednorazovým experimentom a infraštruktúrou, na ktorej môžu ďalej stavať výskumníci aj verejné inštitúcie.

Zdroje

Pipeline pre katharevousu ukazuje, ako z historického OCR vytvoriť auditovateľné NLP dáta

Ďalšie články k téme

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM