Pipeline pre katharevousu ukazuje, ako z historického OCR vytvoriť auditovateľné NLP dáta
Výskumníci pripravili reprodukovateľný Universal Dependencies štýl pipeline pre grécke parlamentné texty v katharevouse. Spája OCR rekonštrukciu, LLM asistovanú anotáciu, validáciu a pevné benchmarky.