BOHM meria prínos nástrojov v zložených AI systémoch bez drahých SHAP výpočtov
Nový výskumný návrh z arXivu ukazuje, ako využiť smerovacie váhy v agentických a zložených AI systémoch na lacnú hierarchickú atribúciu. BOHM nenahrádza SHAP vo všetkom, ale rieši praktický problém, keď jednotlivé komponenty nie sú dostupné na opakované testovanie.
Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- arXiv
Redakčný kontext
Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.
Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.
Zložené AI systémy už zďaleka nevyzerajú ako jeden model, ktorý dostane otázku a vráti odpoveď. V praxi čoraz častejšie ide o orchestrátor, ktorý úlohu rozdelí medzi špecializované modely, vyhľadávače, databázové nástroje, plánovače alebo externé API. Nový preprint BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems sa pozerá presne na túto vrstvu: ako zistiť, ktorý nástroj alebo vetva systému reálne prispeli k výsledku, keď celý reťazec nie je možné lacno rozobrať na všetky možné kombinácie komponentov.
Doterajším štandardom pre podobné otázky sú často Shapleyho hodnoty a metódy typu SHAP. Ich výhoda je jasná: vedia rozdeliť výslednú hodnotu medzi časti systému podľa ich marginálneho príspevku. Lenže to predpokladá, že systém možno opakovane spúšťať s rôznymi podmnožinami komponentov. Pri moderných agentoch je to často nereálne. Niektoré časti sú uzavreté služby tretích strán, iné sa dajú volať iba cez produkčný orchestrátor a pri ďalších by takýto experiment znamenal tisíce až milióny dodatočných behov.
BOHM navrhuje iný uhol pohľadu. Namiesto opakovaného vypínania a zapínania komponentov číta informáciu, ktorú mnohé zložené systémy už majú: smerovacie váhy. Ak orchestrátor rozhoduje, ktorou vetvou hierarchie má úloha prejsť, tieto váhy možno preniesť do atribučného stromu. Príspevok listového uzla je potom súčinom váh na ceste od koreňa po list a atribúcia na ľubovoľnej úrovni je rozdelením pravdepodobnosti medzi uzly v danej hĺbke.
Výsledkom je metóda, ktorú autori označujú ako prakticky bez nulových dodatočných nákladov. Neznamená to, že vývojár dostane rovnakú odpoveď ako zo SHAP analýzy. Znamená to, že dostane konzistentný hierarchický obraz o tom, ako produkčný systém smeruje úlohy, aj vtedy, keď nemá prístup k interným stavom komponentov alebo nevie bezpečne vykonať experimenty s ich podmnožinami. Pri agentoch a firemných workflow je práve toto často rozhodujúce.
Pre zrozumiteľnosť si možno predstaviť systém, ktorý rieši programátorské úlohy. Najprv vyberá medzi analýzou chyby, generovaním kódu a testovaním, potom v každej vetve medzi konkrétnymi modelmi alebo nástrojmi. Klasická plochá atribúcia by sa snažila priradiť prínos jednotlivým listom. BOHM vie ukázať aj to, či väčšinu prínosu nesie celá vetva testovania, alebo či sa rozhodnutie láme až na nižšej úrovni medzi dvoma podobnými nástrojmi. Pre ladenie orchestrátora je takáto viacúrovňová informácia často užitočnejšia než jediné číslo.
Autori metódu porovnali na 18 veľkých jazykových modeloch v trojúrovňovej hierarchii nad 880 problémami z LiveCodeBench. Podľa abstraktu BOHM dosiahol Kendallovo tau 0,928, zatiaľ čo SHAP sa dostal na 0,980, ale pri približne 9 000-krát väčšom počte koaličných vyhodnotení na jeden seed. To je dôležitý pomer: v offline experimente môže byť presnejšia metóda stále prijateľná, no v produkčnom agentickom systéme môže byť rozdiel v počte behov úplne rozhodujúci.
Druhý experiment sa týkal agentickej štúdie s piatimi „driver“ komponentmi a siedmimi benchmarkmi. Autori upozorňujú, že routre často koncentrujú rozhodovanie do jedného nástroja; medián najväčšieho podielu smerovania dosiahol 0,65. Zároveň sa ukázalo, že zhoda BOHM so SHAP závisí od toho, či si driver ako najčastejšiu voľbu skutočne vyberá empiricky najlepší nástroj. To je praktická diagnostika: ak sa BOHM a SHAP rozchádzajú, nemusí to byť iba chyba atribúcie, ale signál, že router systematicky preferuje nevhodnú vetvu.
Tretí príklad používa hierarchiu údajov amerického sčítania s 475 listami a štyrmi úrovňami. BOHM tam obnovoval poradia na viacerých úrovniach stromu a dosiahol Kendallovo tau až 0,722. Táto časť je zaujímavá preto, že ukazuje širšie použitie mimo typického LLM benchmarku: ak systém prirodzene pracuje s hierarchiou, atribúcia sa nemusí obmedziť na izolované „nástroje“, ale môže opisovať celé vrstvy rozhodovania.
Dôležité je aj obmedzenie. BOHM nespĺňa Shapleyho aditivitu a autori ho neprezentujú ako univerzálnu náhradu SHAP. Skôr ide o doplnkový primitív pre prostredia, kde existuje routingový stav, ale neexistuje realistický spôsob, ako vyhodnocovať ľubovoľné koalície komponentov. V enterprise AI je to veľmi bežná situácia: bezpečnostné pravidlá, licencie, latencia aj cena bránia tomu, aby analytici skúšali každú možnú konfiguráciu.
Pre firmy budujúce agentické systémy je hlavná správa jednoduchá. Ak orchestrátor už dnes udržiava pravdepodobnosti, skóre alebo váhy smerovania, tieto dáta nemusia slúžiť iba na vykonanie úlohy. Môžu sa stať základom auditovateľnej vrstvy, ktorá vysvetlí, ktoré vetvy systému sa reálne používajú, kde sa koncentruje rozhodovanie a kde sa oplatí investovať do lepšieho nástroja. To je menej efektné ako nový model, ale pre spoľahlivosť a správu zložených AI systémov veľmi praktické.
Zdroje