AWS ukazuje, že kombinácia OCR, LLM a vektorov vie zlacniť KYC o 91 %
Sun Finance spolu s AWS opísali produkčný KYC a fraud pipeline, ktorý spája Textract, Rekognition, Bedrock a S3 Vectors. Výsledkom má byť vyššia presnosť, výrazne nižšie náklady a zrýchlenie spracovania z hodín na sekundy.
Autor: Redakcia AI Feed
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- AI Feed
AWS zverejnilo detailný produkčný príklad, ktorý je zaujímavý najmä tým, že nejde o všeobecný "AI transformuje financie" príbeh, ale o konkrétny prevádzkový pipeline s číslami. Lotyšská fintech firma Sun Finance opisuje, ako spojila klasické OCR, vizuálnu analýzu, veľký jazykový model a vektorové vyhľadávanie pri overovaní identity a odhaľovaní podvodov. Podľa zverejnených údajov sa presnosť extrakcie údajov z dokladov zdvihla zo 79,7 na 90,8 percenta, náklady na dokument klesli o 91 percent a čas spracovania sa znížil z okna, ktoré mohlo mimo pracovných hodín trvať až 20 hodín, na menej než päť sekúnd.
Zaujímavé je, že problém nevznikal len na strane modelov, ale aj v ekonomike procesu. Sun Finance spracúva vysoké objemy žiadostí o mikroúvery a v jednom zo svojich najväčších segmentov muselo manuálne preverovať približne 60 percent žiadostí. Veľká časť týchto zásahov nebola spôsobená podvodom, ale chybami pri extrakcii textu z dokladov. Inými slovami: firma nebola zablokovaná iba presnosťou modelu, ale tým, že nepresný medzičlánok posúval príliš veľa prípadov do ľudského frontu.
Architektúra, ktorú AWS opisuje, stojí na rozdelení úloh. Amazon Textract robí primárnu textovú extrakciu, Rekognition slúži ako fallback a zároveň rieši vizuálne kontroly, Bedrock s modelom Claude Sonnet 4 preberá úlohu štruktúrovania a interpretácie a Amazon S3 Vectors poskytuje podobnostné vyhľadávanie nad známymi vzormi podvodov. Takéto rozloženie je dôležité, pretože ukazuje praktický rozdiel medzi klasickým OCR a generatívnym modelom. LLM tu nie je náhradou celej pipeline, ale vrstvou, ktorá zvyšuje robustnosť pri formátovaní a rozhodovaní nad výstupom špecializovaných nástrojov.
AWS tým nepriamo potvrdzuje vzorec, ktorý sa opakuje aj v iných podnikových nasadeniach: najlepšie výsledky často neprináša univerzálny multimodálny model nasadený na všetko, ale zloženie viacerých služieb, z ktorých každá rieši úzko definovanú časť úlohy. V tomto prípade ide o optické čítanie, vizuálne overenie, transformáciu do konzistentného JSON formátu a vyhľadávanie podozrivých podobností medzi obrázkami. Z pohľadu prevádzky je cennejšie mať takýto skladaný systém s merateľnými zásahmi do nákladov než ďalší všeobecný benchmark bez dopadu na front manuálnych kontrol.
Druhý pilier riešenia je fraud detection. AWS opisuje situáciu, v ktorej približne desatina denných požiadaviek niesla znaky reálneho podvodu a útočníci používali podobné vizuálne vzory, aby obišli základné pravidlá. Práve tu vstupujú do hry vektory a podobnostné vyhľadávanie nad databázou známych vzorov. Nie je to futuristický "agent", ale veľmi praktická prevádzková vrstva, ktorá vie upozorniť na opakujúce sa manipulácie bez toho, aby analytik ručne porovnával množstvo obrázkov.
Dôležitá je aj rýchlosť implementácie. AWS uvádza, že proof of concept vznikol počas šiestich týždňov a Sun Finance potom riešenie previedlo do produkcie v horizonte 35 pracovných dní po odovzdaní. To je pre podnikový trh podstatný signál. Hodnota generatívnej AI sa často láme na tom, či je organizácia schopná posunúť pilot do produkcie skôr, než sa z neho stane len interná prezentácia. Tu AWS ukazuje presný opak: úloha s vysokým objemom, jasne definovanou ekonomikou a konkrétnym dopadom na jednotkové náklady.
Pre banky, fintechy a regulované firmy je však rovnako dôležitá interpretácia toho, čo zverejnené čísla vlastne znamenajú. Zlepšenie presnosti o jedenásť percentuálnych bodov samo osebe ešte negarantuje, že sa zníži operatívne riziko v každej krajine alebo pri každom type dokladu. Podstatné je skôr to, že pipeline bola navrhnutá pre viacero typov dokumentov, viac jazykov a produkčný objem. Tým sa posúva z kategórie laboratórnej ukážky do kategórie prevádzkového vzoru, ktorý sa dá adaptovať aj mimo jedného trhu.
Z širšieho pohľadu je tento prípad ďalším dôkazom, že podniková AI sa presúva od chatovacích rozhraní k neviditeľným back-office procesom. Koncového používateľa nemusí zaujímať, či na pozadí beží Textract, Rekognition alebo Claude. Biznis však zaujíma, koľko žiadostí odpadne z manuálneho spracovania, aká je presnosť a či sa vďaka tomu otvorí ekonomika aj pre produkty s nižšou maržou. Presne tam má tento typ architektúry väčší význam než väčšina efektných, ale ťažko merateľných AI dem.
Zdroje