AI produkty18. mája 20264 min čítania

AWS pridáva do Bedrock AgentCore vlastné evaluátory postavené na AWS Lambda

Amazon rozširuje Bedrock AgentCore o vlastné kódové evaluátory. Firmy tak môžu popri hodnotení cez LLM zaviesť aj deterministické kontroly JSON schém, číselnej presnosti, poradia krokov či únikov PII.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AWS

#enterprise AI #AI agenti #AWS #evaluácia #Amazon Bedrock AgentCore #AWS Lambda

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 3 zdroje.

Amazon rozšíril Bedrock AgentCore o vlastné kódové evaluátory, ktoré bežia cez AWS Lambda a dopĺňajú hodnotenie agentov založené na modeli typu LLM-as-a-Judge. Z pohľadu firemných nasadení ide o výrazne praktickejšiu novinku, než naznačuje samotný názov. Veľká časť problémov produkčných agentov totiž nespočíva v tom, že odpoveď znie neprirodzene, ale v tom, že poruší proces, vráti zle naformátovaný JSON, pomýli si čísla, vynechá povinný krok alebo omylom prepustí citlivé údaje. Práve na tieto chyby sú deterministické evaluátory vhodnejšie než ďalšie kolo hodnotenia cez generatívny model.

AWS v blogu opisuje nový mechanizmus ako spôsob, ako dostať kontrolu nad kvalitou agentov z roviny dojmu do roviny merateľných zmlúv a pravidiel. Firma môže napísať vlastnú Lambda funkciu, zaregistrovať ju do AgentCore a tú potom používať ako hodnotiaci engine. Takáto funkcia môže robiť regexové a štrukturálne kontroly, overovať odpovede voči externému referenčnému systému, kontrolovať poradie nástrojových volaní alebo volať ďalšie bezpečnostné a detekčné služby. Výsledkom nie je len všeobecné skóre užitočnosti, ale aj presne pomenovaný dôvod, prečo agent uspel alebo zlyhal.

Význam tejto zmeny rastie s tým, ako sa agenti presúvajú z dem do produkcie. Pri internom copilotovi môže byť trochu nepresná formulácia nepríjemnosť. Pri finančnom agentovi, servisnom workflowe alebo nástroji, ktorý pracuje so zákazníckymi údajmi, je však problém úplne inde. Ak agent uvedie cenu mimo povoleného pásma, nevykoná identifikáciu používateľa pred čítaním citlivého profilu, vráti rozbitú schému výstupu alebo prepustí osobné údaje, chyba je objektívna a opakovateľná. A práve preto je rozumné mať popri modelovom hodnotení aj sadu priamo programovateľných pravidiel.

AWS ukazuje štyri typy kontrol, ktoré sú pre tento prístup obzvlášť vhodné. Prvou je validácia štruktúry nástrojových odpovedí, teda napríklad kontrola, či výstup z toolu skutočne sedí na očakávaný JSON kontrakt. Druhou je číselná presnosť oproti zdroju pravdy, čo je dôležité všade tam, kde malé percentuálne odchýlky menia obchodné rozhodnutia. Tretím blokom je kontrola súladu s workflowom, teda či agent naozaj dodržal predpísané poradie krokov a nezobral skratku cez zakázaný postup. Štvrtou oblasťou je ochrana citlivých údajov vrátane detekcie PII alebo iných tajomstiev, ktoré nemajú opustiť interný kontext.

Technicky je zaujímavé aj to, ako sa hodnotenie napája na observability vrstvu. AgentCore posiela do Lambda evaluátora OpenTelemetry stopy zo sedenia, či už na úrovni celej konverzácie, konkrétneho trace alebo jedného tool callu. Evaluátor následne vracia štandardizovaný výsledok s labelom typu PASS alebo FAIL, voliteľným numerickým skóre a vysvetlením. Tieto dáta sa zapisujú do CloudWatch Logs a zároveň sa premietajú do metrík, na ktoré možno naviazať dashboardy aj alarmy. Pre prevádzku to znamená, že kvalita agenta sa dá sledovať podobne ako latencia či chybovosť služby, nie len cez ručné čítanie náhodných konverzácií.

Amazon zároveň neobmedzuje novinku len na vývojárske testy. V on-demand režime sa dajú evaluátory použiť počas iterácie, regresného testovania alebo ako nasadzovací gate v CI/CD pipeline. V online režime zas AgentCore priebežne vzorkuje produkčnú prevádzku, skupinuje dokončené sessions a púšťa nad nimi vybranú sadu evaluátorov. Z pohľadu väčších tímov je to dôležité, pretože rovnaké pravidlo možno držať konzistentne od lokálnej úpravy promptu až po monitorovanie reálnych používateľských tokov po nasadení.

Blog je formálne napísaný ako technický how-to, ale produktový signál je širší. AWS tým v podstate hovorí, že hodnotenie agentov nemá zostať len pri subjektívnych benchmarkoch typu „znie to dobre“ alebo „LLM sudca dal vysoké skóre“. Ak majú agenti prenikať do regulovaných odvetví a procesov so skutočnými obchodnými dôsledkami, musia sa posudzovať aj cez explicitné zmluvy: cez schémy, tolerancie, povinné sekvencie a tvrdé bezpečnostné pravidlá. To je oveľa bližšie tomu, ako dnes firmy rozmýšľajú o kvalite softvéru, API a prevádzkových kontrolách.

Z praktického hľadiska je zaujímavé aj to, že AWS podporuje miešanie týchto vlastných evaluátorov s už existujúcimi vstavanými kontrolami. Firma tak nemusí voliť medzi deterministickou validáciou a hodnotením prirodzeného jazyka. Obe vrstvy môže spojiť do jedného balíka, v ktorom model posúdi zrozumiteľnosť alebo helpfulness, zatiaľ čo kód overí čísla, štruktúru a súlad s procesom. Takýto hybridný režim dáva zmysel, pretože väčšina produkčných agentov zlyháva kombinovane: niekedy je problém v komunikácii, inokedy v tom, že síce komunikujú presvedčivo, ale nesprávne.

Pre trh s agentickou infraštruktúrou je tento krok dôležitý ešte z jedného dôvodu. V posledných mesiacoch sa súťaž medzi dodávateľmi cloudovej AI presúva z modelov k prevádzkovému stacku: observability, governance, security, konektivita na podnikové systémy a evaluácia. Vlastné Lambda-based evaluátory zapadajú presne do tejto vrstvy. Neprinášajú nový model, ale zvyšujú šancu, že firma bude agentov naozaj ochotná pustiť do produkcie. A to môže mať pre adopciu väčší význam než ďalšie kozmetické zlepšenie benchmarkového skóre.

Zdroje

AWS pridáva do Bedrock AgentCore vlastné evaluátory postavené na AWS Lambda

Ďalšie články k téme

Synthesia skúša posunúť firemné AI video do živého tréningu rozhovorov

PydanticAI 2.15 pridáva explicitné cacheovanie promptov a jemnejšie riadenie nástrojov

AWS skúša dopĺňať reasoning stopy do SFT dát cez samotný model Nova