AI produkty3. júna 20263 min čítania

AWS ukazuje SFT a DPO pre presnejšie volanie nástrojov agentmi

AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#AI agenti #AWS #tool calling #SageMaker AI #DPO

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 3 zdroje.

AWS publikoval technický návod, ktorý rieši jeden z najpraktickejších problémov agentických systémov: ako dosiahnuť, aby model spoľahlivo volal správne nástroje so správnymi parametrami. V ukážke nejde o všeobecné presviedčanie, že agenti sú budúcnosťou. Ide o konkrétny tréningový workflow na Amazon SageMaker AI, kde sa malý model Qwen3-1.7B dolaďuje pomocou Supervised Fine-Tuning a následne Direct Preference Optimization.

Tool-calling je pre agentov kritický preto, že chyba sa často neprejaví ako zle formulovaná veta, ale ako zlá akcia. Model môže vybrať nesprávny nástroj, poslať neplatný parameter, zavolať nástroj v momente, keď sa má radšej opýtať doplňujúcu otázku, alebo naopak odmietnuť volať nástroj, hoci je to potrebné. V jednoduchom demo prostredí to vyzerá ako drobná nepresnosť. V produkčnom systéme to znamená dlhšie spracovanie úloh, viac eskalácií na človeka, drahšie opravy a horšiu dôveru používateľov.

Postup AWS má dve fázy. Najprv sa model učí zo správne označených príkladov pomocou SFT. Táto fáza buduje základné správanie: kedy nástroj použiť, ako rešpektovať jeho schému, ako formátovať volanie a ako reagovať na situácie, kde dostupné nástroje nestačia. Následná DPO fáza používa preferenčné páry, v ktorých je jeden výstup označený ako lepší a druhý ako odmietnutý. Cieľom je model ďalej odtlačiť od typických zlých rozhodnutí bez nutnosti budovať samostatný reward model.

AWS ukážku stavia na datasete NVIDIA When2Call. Ten sa zameriava práve na rozhodovanie, či má model volať nástroj, pýtať sa na chýbajúce informácie alebo priznať, že požiadavku nevie splniť dostupnými nástrojmi. Dataset má samostatné časti pre SFT a preferenčné učenie. Podľa blogu obsahuje SFT časť 15-tisíc vzoriek a preferenčná časť 9-tisíc vzoriek. Takáto štruktúra je pre tool-calling dôležitá, lebo nestačí vedieť syntakticky vyrobiť funkčné volanie; model musí rozumieť aj situáciám, v ktorých volanie nemá robiť.

Infraštruktúrne je workflow navrhnutý tak, aby samotný tréning bežal ako SageMaker AI training job. Vývojár pracuje napríklad v SageMaker Studio alebo inom prostredí, ale výpočtovo náročná časť sa spúšťa na samostatnej trénovacej inštancii. AWS uvádza použitie Hugging Face TRL, Accelerate, DeepSpeed ZeRO-3, MLflow sledovanie experimentov a tréning na inštancii ml.p4d.24xlarge. Pre firmy je pointa v tom, že nemusia samostatne skladať celý tréningový cluster a jeho životný cyklus.

Zaujímavý je aj výber malého modelu. Qwen3-1.7B nie je model triedy najväčších frontier systémov. Práve preto je príklad praktický: veľa podnikov nechce každé interné rozhodovanie o nástrojoch posielať cez najdrahší univerzálny model. Ak sa menší model dá doladiť tak, aby spoľahlivo zvládal úzky tool-calling režim, môže fungovať ako lacnejšia a kontrolovateľnejšia vrstva v agentickej architektúre.

Návod zároveň ukazuje, že agentická spoľahlivosť sa nedá merať iba bežnými benchmarkmi generovania textu. Pri nástrojoch treba hodnotiť konkrétne triedy rozhodnutí: či model vôbec mal volať nástroj, či zvolil správny nástroj, či vyplnil povinné parametre, či nehalucinoval hodnoty a či správne reagoval na neúplnú požiadavku. To je bližšie k testovaniu softvérového workflow než k tradičnému porovnávaniu odpovedí chatbotov.

Pre vývojárov je dôležité, že AWS zverejňuje aj repozitár s ukážkovým kódom. Ten obsahuje cestu pre prípad použitia function-calling SFT a DPO, vrátane notebooku na spustenie tréningovej úlohy. V praxi to znamená, že blog nie je iba koncepčný text, ale opisuje reprodukovateľný postup. Firmy ho môžu použiť ako šablónu a nahradiť verejný dataset vlastnými príkladmi nástrojov, doménových schém a preferenčných dvojíc.

Obmedzenie je jasné: samotné doladenie nenahrádza runtime guardrails, validáciu schém ani pozorovanie produkčného správania agentov. Ak model volá nástroje v reálnom systéme, treba stále kontrolovať oprávnenia, auditovať akcie, validovať vstupy a mať mechanizmus na eskaláciu. Tréning však môže znížiť počet chýb ešte pred tým, ako sa dostanú do týchto ochranných vrstiev. To je rozdiel medzi agentom, ktorého treba neustále brzdiť pravidlami, a agentom, ktorý je už v základe lepšie naučený rozhodovať.

Pre trh je tento AWS post ďalším signálom, že MLOps pre agentov sa bude čoraz viac podobať špecializovanému tréningovému a evaluačnému cyklu. Nestačí pripojiť model k API a dúfať, že prompt vyrieši všetko. Bude treba zbierať zlyhania, vytvárať preferenčné dáta, porovnávať varianty modelov a rozhodovať podľa metrík tool-callingu. To je menej efektné než demo autonómneho agenta, ale oveľa bližšie tomu, čo podniky potrebujú pred reálnym nasadením.

Zdroje

AWS ukazuje SFT a DPO pre presnejšie volanie nástrojov agentmi

Ďalšie články k téme

PydanticAI 2.15 pridáva explicitné cacheovanie promptov a jemnejšie riadenie nástrojov

AWS skúša dopĺňať reasoning stopy do SFT dát cez samotný model Nova

Apple skúša trénovať API agentov bez hotového prostredia