AI produkty4. mája 20263 min čítania

AWS chce zlepšovať agentov z produkčných trás, AgentCore Optimization ide do preview

Amazon Bedrock AgentCore pridáva vrstvu, ktorá z produkčných trás navrhuje úpravy promptov a popisov nástrojov a vie ich overovať dávkovým hodnotením aj A/B testom. Je to dôležitý posun od stavania agentov k ich systematickému dolaďovaniu po nasadení.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AWS

#agenti #AWS #AgentCore #observabilita #A/B testovanie #evaly

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 1 zdroj.

Amazon predstavil novú preview vrstvu AgentCore Optimization, ktorá má uzatvoriť takzvaný agent performance loop: pozorovanie, vyhodnotenie a zlepšenie správania agenta po nasadení. Hoci trh rád hovorí o tom, ako rýchlo sa agenti stavajú, v praxi sa čoraz viac ukazuje, že skutočne ťažká časť začína až v produkcii. Model sa mení, používatelia menia správanie, pracovné kontexty sa rozširujú a zrazu sa z pôvodne „dobre fungujúceho“ agenta stáva nepredvídateľný systém plný drobných regresií.

AWS preto navrhuje postup, ktorý je bližší klasickému softvérovému inžinierstvu než promptovému remeslu. Namiesto ručného čítania trás, hádania opráv a opätovného rolloutovania má systém analyzovať produkčné trace logy a evaluačné výstupy, navrhnúť úpravy systémového promptu alebo popisov nástrojov a následne overiť ich v dávkovom hodnotení alebo cez A/B test na živej prevádzke. Ak sa tento prístup uchytí, môže zmeniť spôsob, akým sa budú agenti spravovať v enterprise prostredí.

Technicky ide o pomerne zásadný moment. Doteraz sa veľká časť tímov spoliehala na neformálny cyklus „pozri pár zlyhaní, prepíš prompt, dúfaj v zlepšenie“. AWS chce tento improvizovaný režim nahradiť explicitnou slučkou s meraním a štatistickým overením. V oznámení sa spomína aj A/B testovanie cez AgentCore Gateway, ktoré má deliť živú prevádzku medzi verzie agenta a vracať výsledky vrátane intervalov spoľahlivosti a štatistickej významnosti. To je jazyk, ktorý enterprise zákazníci poznajú skôr z experimentovania v produktoch než z generatívnej AI. Z agentov sa tak stáva disciplína, ktorú možno riadiť podobne ako produktové zmeny.

Dôležité je aj to, čo systém mení a čo nie. Podľa AWS dokáže odporúčať úpravy systémového promptu alebo spresniť textové popisy nástrojov bez zásahu do samotnej implementácie toolov. V agentických systémoch to nie je detail. Práve nekvalitne opísané nástroje často vedú k tomu, že agent síce „nástroj vidí“, ale nevie správne odhadnúť, kedy ho použiť, s akými parametrami alebo kedy sa mu radšej vyhnúť.

Pre trh je to ďalší dôkaz, že evaly sa presúvajú z laboratória do prevádzky. Nestačí jednorazovo otestovať, či agent zvládne pripravené scenáre na validačnej sade. Potrebné je sledovať, ako sa správa pri reálnych požiadavkách, v akých krokoch sa láme, či sa zhoršuje pri nových nástrojoch a či sa optimalizácie skutočne pretavia do lepších výsledkov pre používateľa. AWS sa týmto krokom zaraďuje medzi hráčov, ktorí agentov nepredávajú len ako stavebnicu, ale aj ako systém, ktorý treba kontinuálne merať a udržiavať.

Z pohľadu podnikov môže mať novinka praktický dopad najmä tam, kde agent vykonáva viacstupňové úlohy nad internými systémami. Keď agent pracuje s CRM, firemnými znalosťami, kalendárom alebo ticketami, aj malý pokles kvality môže znamenať vyšší počet ľudských zásahov, oneskorenia alebo chybné odpovede. Schopnosť prepojiť trace dáta s návrhom zlepšení a následne ich overiť v kontrolovanom experimente tak môže skrátiť čas medzi objavením problému a bezpečnou opravou.

Treba však dodať, že takýto prístup zvyšuje aj nároky na disciplínu v observabilite. Bez kvalitných produkčných trás, rozumných metrík a dobre navrhnutého hodnotenia bude aj najlepší optimalizačný nástroj len hlučnou vrstvou nad chaotickým systémom. AWS to nepriamo priznáva: odporúčania majú vychádzať z toho, čo agent už loguje, a z hodnotiteľa, ktorého si zákazník zvolí. Kvalita vstupných dát teda zostáva kritická.

AgentCore Optimization preto nie je len ďalšia položka v katalógu Bedrocku. Je to signál, že agentické platformy sa posúvajú od „builder mode“ do „operations mode“. Kto chce mať agentov v produkcii dlhodobo, nebude riešiť len model a nástroje, ale aj to, ako sa systém priebežne zlepšuje bez slepého riskovania v živej prevádzke. A práve v tejto vrstve sa môže začať lámať skutočný rozdiel medzi demo agentom a podnikovou službou.

Zdroje

AWS ML Blog: Introducing the agent performance loop: AgentCore Optimization now in preview

AWS chce zlepšovať agentov z produkčných trás, AgentCore Optimization ide do preview

Ďalšie články k téme

AWS navrhuje agentické prekrytia pre staré podnikové API

Hugging Face ukazuje jednorazový vLLM server cez HF Jobs

Patronus AI stavia testovanie agentov na digitálne svety