AWS ukazuje SFT a DPO pre presnejšie volanie nástrojov agentmi
AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.
Tag
Všetky publikované články, v ktorých sa téma tool-calling objavuje ako dôležitý kontext. Aktuálne 10 textov v archíve.
AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.
Nové vydanie PydanticAI rozširuje prácu s natívnymi nástrojmi na OpenAI a Anthropic, pridáva novú vrstvu instrumentácie a zároveň začína meniť názvoslovie aj fallback mechanizmy tak, aby bol júnový prechod na V2 menej bolestivý pre tímy, ktoré framework používajú vo výrobe.
Výskumníci z Apple tvrdia, že pri multi-cieľovom dolaďovaní jazykových modelov nestačí maximalizovať priemernú odmenu. Ich metóda RVPO má obmedziť situácie, v ktorých model exceluje v jednej metrike, ale zlyháva v bezpečnosti, formáte alebo pri volaní nástrojov.
Nové vydanie PydanticAI rozširuje riadenie volania nástrojov, zavádza presnejšie eventy pre output tools a opravuje správanie pri rušení agentov, čo má dopad najmä na stabilitu produkčných workflowov.
Mastra rozširuje agentický framework o background tasks, takže dlhé volania nástrojov môžu bežať na pozadí, priebežne posielať stav a po dokončení sa znovu zapojiť do tej istej konverzácie.
Nová verzia PydanticAI pridáva podporu pre openai_conversation_id v Responses API a zároveň lepšiu typovanú OTel telemetriu pre code tool cally. Nejde o veľký release, ale o presne ten druh prevádzkovej výbavy, ktorý agentické aplikácie potrebujú v produkcii.
Apple vo výskumnej práci Reinforced Agent navrhuje, aby druhý model kontroloval plánované volania nástrojov ešte pred ich vykonaním. Cieľom je znížiť počet chýb bez retrénovania hlavného agenta a merať prínos aj riziko takejto spätnej väzby priamo počas inferencie.
Apple zverejnil výskum PORTool, ktorý sa snaží zlepšiť tréning agentov pracujúcich s externými nástrojmi. Namiesto odmeňovania len podľa finálneho výsledku rozdeľuje zásluhu aj po jednotlivých krokoch, aby model lepšie pochopil, ktoré volania nástrojov boli skutočne užitočné.
Framework PydanticAI vo verzii 1.87.0 rozširuje agentické workflow o odložené volania nástrojov, spracovanie event streamu a skorú podporu modelov GPT-5.5.
Balík langgraph-prebuilt 1.0.11 pridáva do ToolNode podporu bohatších návratových hodnôt a súčasne sprístupňuje zoznam dostupných nástrojov v ToolRuntime.