AI produkty3. júla 20263 min čítania

PydanticAI 2.4 pridáva hodnotenie agentov a prísnejšie hranice pre nahrané súbory

Nová verzia PydanticAI 2.4 rozširuje evaluačnú vrstvu pre agentov: pribudli GEval, metriky pre LLM sudcov aj spanové kontroly nástrojov. Zároveň oddeľuje bezpečnostné povolenie nahraných súborov od ich zobrazenia v AG-UI.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: PydanticAI Releases

#agenti #evaluácie #vývojárske nástroje #PydanticAI #Python

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 2 zdroje.

PydanticAI vydal verziu 2.4.0 a tentoraz nejde iba o drobnú údržbu frameworku. Release notes ukazujú posun smerom k tomu, čo dnes agentické aplikácie najviac potrebujú: merateľné správanie, kontrolu trajektórie nástrojov a presnejšie bezpečnostné hranice okolo dát, ktoré používateľ do agenta pošle. Pre tímy, ktoré PydanticAI používajú ako Python vrstvu nad modelmi, nástrojmi a typed výstupmi, je to praktická aktualizácia skôr v oblasti produkčnej spoľahlivosti než nová marketingová funkcia.

Najviditeľnejšou novinkou je pridanie evaluátora GEval a štandardných rubrík kvality pre triedu LLMJudge. V praxi to znamená, že hodnotenie odpovedí už nemusí stáť iba na ručne písaných aserciách alebo na neurčitom „páči sa mi / nepáči sa mi“. Vývojár môže definovať kritériá, podľa ktorých model-sudca posúdi výstup agenta, a tieto kritériá následne opakovane používať v testoch. Pri agentoch je to dôležité preto, že chyba často nevzniká v jednej vete finálnej odpovede, ale v celej postupnosti rozhodnutí.

Druhá skupina noviniek ide práve po tejto postupnosti. PydanticAI 2.4 pridáva spanové evaluátory ako ToolCorrectness, TrajectoryMatch, ArgumentCorrectness, MaxToolCalls a MaxModelRequests. Názvy sú technické, ale pointa je jednoduchá: framework vie lepšie sledovať, či agent zavolal správny nástroj, či mu poslal správne argumenty, či sa jeho trajektória podobá očakávanému postupu a či pri riešení neprekročil počet volaní modelu alebo nástrojov. To je prakticky použiteľné pri zákazníckej podpore, interných dátových asistentochn aj workflow automatizácii, kde je príliš drahá alebo príliš riskantná odpoveď skoro taký istý problém ako nesprávna odpoveď.

Dôležitá je aj zmena okolo nastavenia preserve_file_data. Doterajšie správanie sa rozdelilo na dve explicitnejšie voľby: allow_uploaded_files ako vstupnú bezpečnostnú hranicu a samostatný opt-in pre reprezentáciu v AG-UI. Takéto rozdelenie znižuje riziko, že jeden prepínač naraz povolí spracovanie citlivých súborov aj ich nechcené vystavenie v používateľskom rozhraní. Pri agentoch, ktoré prijímajú dokumenty, obrázky alebo firemné prílohy, je práve odlíšenie „môže model tento súbor použiť“ od „má sa tento súbor niekde zobraziť“ základný hygienický princíp.

Release obsahuje aj viacero opráv integrácií. Medzi nimi je aktualizácia limitov pre xAI XSearchTool, preposielanie user_location do webového vyhľadávania xAI, zachovanie rozšírených usage polí z Mistral API a opravy okrajových prípadov v spracovaní tool calls. Samostatne to pôsobí ako bežná údržba, no pri produkčnom agentovi sú podobné detaily rozhodujúce: ak sa stratí usage metadata, zhorší sa billing a observabilita; ak sa zle spracuje nástroj, agent môže pokračovať v nesprávnom stave.

Z pohľadu slovenských tímov je zaujímavý najmä dôraz na evaluácie. Mnohé firmy už majú prototypy interných agentov, ale stále narážajú na otázku, ako dokázať, že agent po zmene promptu, modelu alebo nástroja nestratil dôležité schopnosti. PydanticAI 2.4 naznačuje smer, v ktorom sa vývoj agentov približuje k bežnému softvérovému inžinierstvu: nielen spustiť demo, ale mať regresné testy, limity nákladov, očakávané trajektórie a auditovateľný záznam rozhodnutí.

Neznamená to, že framework sám vyrieši bezpečnosť agentov. Evaluátor založený na LLM sudcovi je stále závislý od kvality rubriky, modelu a testovacích prípadov. Spanové metriky zas zachytia iba to, čo vývojár vie definovať a logovať. Nová verzia však dáva tímom konkrétnejšie stavebné prvky, aby sa posunuli od dojmov k meraniu. Pri agentoch, ktoré môžu volať nástroje, vyhľadávať na webe alebo pracovať s dokumentmi, je takýto posun cennejší než ďalší konektor do populárnej služby.

PydanticAI zároveň pokračuje v trende, kde frameworky pre agentov nesúperia iba počtom modelových providerov, ale kvalitou runtime vrstvy okolo nich. Rozhranie na schémy, validáciu výstupov a typované nástroje bolo prirodzeným rozšírením sveta Pydanticu. Teraz sa k tomu pridáva evaluačný a bezpečnostný povrch, ktorý je bližší požiadavkám firiem: kto čo zavolal, prečo, koľkokrát, s akými argumentmi a s akým výsledkom.

Pre produkciu je preto verzia 2.4 skôr signálom dozrievania než dôvodom na okamžitú migráciu. Tímy, ktoré už PydanticAI používajú, by si mali pozrieť najmä nové evaluačné triedy a zmenu okolo nahraných súborov. Tímy, ktoré framework iba zvažujú, dostávajú lepší obraz o jeho ambícii: byť nielen pohodlnou vrstvou pre volanie modelov, ale aj infraštruktúrou na testovanie a riadenie agentického správania.

Zdroje

PydanticAI 2.4 pridáva hodnotenie agentov a prísnejšie hranice pre nahrané súbory

Ďalšie články k téme

Dynamic-SAGE meria pri video agentoch presnosť aj cenu nástrojov naraz

AWS zhrnul praktiky pre viacťahové RL agentov v SageMaker AI

Figma učí svojho agenta tímové návyky cez opakovateľné skills