AWS chce z testovacích prípadov pre agentov spraviť verziované datasety
Amazon Bedrock AgentCore pridáva workflow pre správu evaluačných datasetov, aby agenti mali stabilné regresné testy aj pri rýchlom vývoji v produkcii.
Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- AWS Machine Learning Blog
Redakčný kontext
Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.
Článok je zaradený v sekcii AI produkty a opiera sa o 2 zdroje.
AWS zverejnilo technický postup pre správu evaluačných datasetov v Amazon Bedrock AgentCore. Pointa je jednoduchá, ale pre produkčných agentov zásadná: testovacia sada má byť stabilná, verziovaná a opakovateľná, inak sa nedá povedať, či sa agent skutočne zlepšil. V agentických systémoch sa totiž mení prompt, nástroje, pamäť, dáta aj samotný model. Ak sa zároveň menia aj testovacie vstupy, výsledné skóre môže merať náhodu namiesto pokroku.
Bedrock AgentCore preto pracuje s datasetmi, ktoré obsahujú vstupy, očakávané výstupy, asercie, očakávané poradie nástrojov a prípadne simulované používateľské persony. AWS rozlišuje vopred definované scenáre pre známe správanie a simulované scenáre, ktoré majú objavovať nové zlyhania cez viacotáčkové rozhovory. Prvý typ sa hodí na regresné testy a CI brány, druhý na vývojársky inner loop, kde tím hľadá slabé miesta skôr, než sa dostanú do produkcie.
Praktický problém, ktorý AWS rieši, je dnes veľmi rozšírený. Mnohé firmy hodnotia agentov iba pomocou LLM sudcu, ktorý povie, či odpoveď vyzerá užitočne. To môže stačiť pri hrubom triedení, no nestačí pri úlohách, kde existuje správny stav sveta alebo povinný postup. Agent môže odpovedať plynulo, ale použiť nesprávny nástroj, vynechať overenie ceny, prehliadnuť osobný údaj alebo zmeniť pamäť v nesprávnom kontexte. Preto sú potrebné ground-truth očakávania a kontrola trajektórie nástrojov.
AWS ukazuje aj rozdiel medzi vývojárskym a nasadzovacím cyklom. V inner loop vývojár spustí agenta, pozrie skóre a vysvetlenie, upraví prompt alebo popis nástroja a test zopakuje. V outer loop sa z publikovanej verzie datasetu stane brána v CI/CD: ak nový model alebo zmena konfigurácie spôsobí regresiu, deploy sa zastaví. Dôležitá je nemennosť publikovanej verzie, pretože len tak sa dá porovnať dnešný výsledok so včerajším.
Pre agentické aplikácie ide o posun od demonštrácie k softvérovému inžinierstvu. Chatbot môže byť otestovaný niekoľkými otázkami, ale agent s nástrojmi potrebuje testy podobné integračným testom: kontrolu vstupov, očakávaného postupu, výstupu a vedľajších účinkov. Dataset manažment v AgentCore sa snaží tieto artefakty spraviť prvotriednymi objektmi, nie poznámkami v tabuľke alebo v repozitári bez verzií.
Význam pre podniky je veľký najmä preto, že agenti sa učia z prevádzky. Produkčné chyby, eskalácie a sťažnosti by sa nemali opraviť iba jedným promptom; mali by sa stať novým testovacím prípadom, ktorý zabráni návratu chyby. AWS tento vzor opisuje ako prepojenie online signálov so stabilným offline benchmarkom. Rýchla prevádzková spätná väzba ukazuje, čo sa deje dnes, zatiaľ čo publikovaný dataset ukazuje, či nový release nezhoršil známe správanie.
Obmedzením je, že samotný nástroj nevyrieši kvalitu testov. Tím musí vedieť napísať dobré asercie, vybrať reprezentatívne scenáre a rozhodnúť, ktoré zlyhania sú kritické. Simulované persony môžu objaviť nové problémy, ale stále sú syntetické. Preto by sa dataset manažment mal kombinovať s reálnymi logmi, bezpečnostnými pravidlami a manuálnou analýzou incidentov, nie chápať ako automatická náhrada QA procesu.
Aj tak je správa verziovaných evaluačných datasetov dôležitým signálom. Cloudové platformy už nepredávajú iba model a runtime, ale aj disciplínu okolo agentov: testy, logy, porovnania, schvaľovanie a návrat produkčných zlyhaní do vývoja. Ak má AI agent zasahovať do objednávok, podpory, financií alebo interných systémov, práve táto vrstva rozhodne, či bude nasaditeľný mimo pilotu.
Zaujímavé je aj to, že AWS touto témou nepriamo priznáva hranice čistého prompt engineeringu. Ak sa agent zlepšuje iba úpravou promptu, ale nemá stabilnú sadu prípadov, tím nevie odlíšiť skutočný pokrok od náhodného správania modelu. Verziovaný dataset preto funguje ako kotva: drží problém rovnaký, aby sa dali meniť modely, nástroje a pravidlá bez straty porovnateľnosti.
Zdroje