AI výskum18. júna 20263 min čítania

MosaicLeaks upozorňuje, že výskumné agenty môžu prezradiť tajomstvá cez vyhľadávanie

ServiceNow a Hugging Face opisujú benchmark, v ktorom agenti skladajú odpovede z verejných aj súkromných dát. Únik môže vzniknúť už v postupnosti externých dopytov.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#bezpečnosť #AI agenti #Hugging Face #súkromie #ServiceNow

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Nový príspevok ServiceNow na Hugging Face sa venuje menej viditeľnému riziku výskumných agentov: úniku súkromných informácií nie cez finálnu odpoveď, ale cez samotný postup práce. Benchmark MosaicLeaks modeluje situácie, v ktorých agent používa súkromné dokumenty aj verejné vyhľadávanie. Každý jednotlivý externý dopyt môže vyzerať neškodne, no ich kombinácia môže pozorovateľovi prezradiť citlivý interný fakt.

Autori tento problém označujú ako mozaikový efekt. Agent napríklad nemusí do vyhľadávača poslať vetu „firma X mala interný bezpečnostný incident“, ale môže postupne vyhľadávať názov dodávateľa, dátum, technický detail a nepriamu nápovedu z interného dokumentu. Kto sleduje odchádzajúce dotazy, vie si fragmenty poskladať. Pre organizácie, ktoré chcú agentom dovoliť pracovať so súkromnými dokumentmi a zároveň internetom, je to zásadný bezpečnostný problém.

MosaicLeaks preto nehodnotí iba to, či agent odpovie správne. Sleduje aj to, či počas viacskokovej úlohy neodhalí odpoveď, celé súkromné tvrdenie alebo inú citlivú informáciu v dotazoch smerujúcich von. To je dôležitý posun oproti bežným bezpečnostným testom, ktoré sa zameriavajú najmä na obsah finálnej odpovede. Pri agentoch sú však nástrojové volania, vyhľadávania a medzikroky súčasťou povrchu útoku.

Výsledky sú varovné. Autori uvádzajú, že testované agenty často unikajú súkromné informácie a že tréning zameraný iba na lepšie splnenie úlohy môže problém zhoršiť. Inými slovami, výkonnejší agent, ktorý je odhodlanejší nájsť správnu odpoveď, môže byť zároveň agresívnejší pri vyhľadávaní a menej opatrný pri maskovaní toho, čo vie zo súkromného kontextu. To je presne typ neintuitívneho zlyhania, ktorý sa v podnikových nasadeniach ľahko prehliadne.

Autori navrhujú tréningový postup Privacy-Aware Deep Research, skrátene PA-DR. Ten má agentov učiť nielen odpovedať, ale aj vyhľadávať spôsobom, ktorý minimalizuje prezradenie súkromného kontextu. Podľa príspevku sa pri tejto metóde zvýšila prísna úspešnosť reťazca odpovedí z 48,7 na 58,7 percenta a zároveň klesol únik plnej informácie z 34,0 na 9,9 percenta. Dôležité je, že cieľom nie je len pridať systémovú inštrukciu „neprezraď tajomstvo“, ale zmeniť správanie agenta pri práci.

Pre firmy je praktický záver jasný: ak agent môže čítať interné dokumenty a volať externé nástroje, nestačí skontrolovať jeho poslednú odpoveď. Treba auditovať aj dotazy, medzikroky, logy a tok údajov medzi súkromným a verejným prostredím. Zdanlivo technické rozhodnutia, ako je formulácia vyhľadávacieho dopytu, sa stávajú súčasťou ochrany dát.

Benchmark zároveň zapadá do širšej debaty o agentoch ako autonómnych pracovníkoch. Čím viac im dovolíme spájať lokálne súbory, e-mail, web a firemné nástroje, tým viac sa bezpečnostné riziko presúva z jednorazového promptu na celú trajektóriu činnosti. Tradičné pravidlá pre únik citlivých údajov sa musia rozšíriť o situácie, kde citlivosť nevzniká z jednej vety, ale zo súčtu viacerých verejne vyslaných signálov.

MosaicLeaks nie je dôkaz, že výskumné agenty nemožno bezpečne používať. Skôr ukazuje, že bezpečný agent musí byť hodnotený ako proces, nie ako textový generátor. Pre vývojárov agentických systémov to znamená nové metriky, nové tréningové ciele a pravdepodobne aj architektúry, ktoré vedia oddeliť súkromné uvažovanie od verejných akcií lepšie než dnešné univerzálne pracovné slučky.

Pre bezpečnostné tímy z toho vyplýva aj otázka monitorovania. Ak sa zakáže posielať celé tajné dokumenty do externých služieb, ale povolí sa voľné vyhľadávanie nad internetom, organizácia ešte nemá vyriešený únik dát. Bude potrebovať pravidlá pre redigovanie dopytov, lokálne vyhľadávacie vrstvy, simulované útoky a hodnotenia, ktoré sledujú kumulatívny informačný obsah viacerých volaní. MosaicLeaks je cenný práve tým, že dáva tomuto nejasnému riziku merateľnú podobu.

Zdroje

MosaicLeaks upozorňuje, že výskumné agenty môžu prezradiť tajomstvá cez vyhľadávanie

Ďalšie články k téme

Hugging Face chce merať, či knižnice naozaj zvládnu používať AI agenti

Amazon sprístupnil Bedrock AgentCore harness pre produkčné AI agenty

OpenAI ukazuje, ako môže AI pomôcť pri opätovnej analýze zriedkavých diagnóz