aifeed.skAI Feed
AI výskum3 min čítania

FinAgent-RAG cieli na výkazy: agentický RAG má zlepšiť finančné otázky aj cenu výpočtu

Nový paper FinAgent-RAG tvrdí, že pri finančných dokumentoch nestačí jednorazové vyhľadanie a odpoveď. Autori stavajú na opakovanom dohľadávaní, písaní vykonateľného kódu pre aritmetiku a smerovaní výpočtu podľa náročnosti otázky.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
arXiv

Finančné dokumenty patria medzi tie typy podkladov, na ktorých sa slabiny bežného retrieval-augmented generation ukazujú veľmi rýchlo. Výročné správy, poznámky pod čiarou, tabuľky a slovné komentáre sú roztrúsené po desiatkach strán a odpoveď často nevznikne z jedného odseku, ale zo série malých krokov: nájsť správnu tabuľku, identifikovať relevantný riadok, skontrolovať časové obdobie, prepočítať čísla a až potom zložiť výsledok do jednej odpovede. Práve na tento typ práce cieli nový paper FinAgent-RAG.

Autori hovoria otvorene, že tradičný model „najprv vyhľadaj, potom odpovedz“ na finančných otázkach často zlyháva. Dôvod nie je len v kvalite samotného modelu, ale aj v tom, že finančné otázky bývajú kompozičné. Potrebujú prepájať textové tvrdenia, štruktúrované tabuľky a číselné vzťahy, ktoré sa nedajú spoľahlivo zvládnuť iba generovaním odpovede z jedného kontextového bloku. FinAgent-RAG preto navrhuje agentický rámec, v ktorom sa vyhľadávanie a uvažovanie striedajú vo viacerých kolách a výsledok sa priebežne overuje.

Z technického pohľadu paper stojí na troch pilieroch. Prvým je kontrastívny finančný retriever, ktorý sa má naučiť rozlišovať medzi pasážami, ktoré sú si jazykovo podobné, no numericky znamenajú niečo iné. To je vo financiách zásadné: dve vety môžu hovoriť o tržbách či marži takmer rovnakým slovníkom, ale jedna sa vzťahuje na kvartál, druhá na celý rok, alebo na inú dcérsku entitu. Druhým pilierom je Program-of-Thought modul, kde model negeneruje len slovnú odpoveď, ale píše vykonateľný Python kód na aritmetiku. Tretím prvkom je smerovač stratégie, ktorý podľa náročnosti otázky rozhoduje, koľko výpočtových krokov sa oplatí použiť.

Zaujímavé je, že autori netvrdia len vyššiu presnosť, ale aj lepšiu nákladovosť. Podľa abstraktu adaptívny router znižuje API náklady na datasete FinQA o 41,3 percenta bez toho, aby sa presnosť zrútila. V praxi to naznačuje pragmatický smer vývoja agentických systémov: nie všetky otázky si zaslúžia rovnako dlhý reťazec nástrojov a rovnako drahé uvažovanie. Ak systém vie rozpoznať, kedy stačí kratšia cesta a kedy je potrebné hlbšie viacstupňové spracovanie, môže to byť rovnako dôležité ako samotný modelový backbone.

Výsledky, ktoré autori uvádzajú na benchmarkoch FinQA, ConvFinQA a TAT-QA, sú pre túto oblasť pomerne silný signál. FinAgent-RAG podľa nich dosahuje exekučnú presnosť 76,81 percenta, 78,46 percenta a 74,96 percenta a prekonáva najsilnejší baseline o 5,62 až 9,32 percentuálneho bodu. Takéto zlepšenie nie je kozmetické. Pri finančných workflow ide často o úlohy, kde aj malé percento chýb znamená nesprávne porovnania, zlé interpretácie výkazov alebo problematické interné reporty.

Dôležité je aj to, že paper priamo pomenúva slabinu „mentálnej aritmetiky“ veľkých jazykových modelov. V právnych či marketingových textoch sa dá občas tolerovať voľnejšia formulácia, ale vo finančných otázkach sa systém láme na tom, či správne spočíta pomer, rozdiel alebo medziročnú zmenu. Presun aritmetiky do vykonateľného kódu je preto praktickejší než snaha prinútiť model, aby si čísla držal iba v prirodzenom jazyku. Ak sa tento prístup osvedčí aj mimo benchmarkov, môže ovplyvniť architektúru enterprise RAG systémov v bankách, poisťovníctve či corporate finance.

Paper zároveň zapadá do širšieho trendu, v ktorom sa RAG prestáva chápať ako jednoduché prilepenie vyhľadávača k LLM. Čoraz viac prác ukazuje, že vo vertikálach s vysokou chybovosťou nestačí „dodať viac kontextu“. Potrebné je vedieť cielene dohľadávať, overovať medzi-kroky, odlíšiť textové a číselné operácie a rozumne manažovať cenu inferencie. FinAgent-RAG je preto zaujímavý nie iba pre financie, ale aj ako vzor pre ďalšie domény, kde sa pracuje s kombináciou tabuliek, regulovaných dokumentov a potreby auditovateľného výpočtu.

Samozrejme, medzi benchmarkom a produkciou zostáva ešte veľký kus cesty. Reálne firemné dáta bývajú špinavšie, terminológia menej štandardná a dokumenty často putujú naprieč PDF, excelmi a internými systémami. Napriek tomu je tento paper dôležitý, lebo presúva debatu od všeobecného sľubu „agent zvládne analýzu výkazov“ ku konkrétnej architektúre, ktorá hovorí, čo má robiť retriever, čo má robiť vykonateľný kód a kde sa má rozhodovať o cene versus kvalite. Pre AI nasadenia vo finančnom sektore je to podstatne užitočnejší smer než ďalšie všeobecné tvrdenie o tom, že frontier modely budú raz lepšie rozumieť číslam samy od seba.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie