Apple skúša naučiť agentov lepšie používať nástroje cez PORTool
Apple zverejnil výskum PORTool, ktorý sa snaží zlepšiť tréning agentov pracujúcich s externými nástrojmi. Namiesto odmeňovania len podľa finálneho výsledku rozdeľuje zásluhu aj po jednotlivých krokoch, aby model lepšie pochopil, ktoré volania nástrojov boli skutočne užitočné.
Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- Apple Machine Learning Research
Redakčný kontext
Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.
Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.
Jedna z najťažších otázok pri agentických systémoch nie je len to, či model odpovie správne, ale ako sa naučí správne rozhodovať v priebehu úlohy. Pri agentovi, ktorý kombinuje textové uvažovanie s volaním nástrojov, často nestačí pozerať iba na konečný výsledok. Ak odpoveď zlyhá, nie je jasné, či bola chyba v zlom výbere nástroja, v zlom poradí krokov, v nepodarenom formáte parametrov alebo v tom, že sa model vydal slepou uličkou príliš skoro. Práve na tento problém mieri nový výskum Apple s názvom PORTool.
Apple opisuje PORTool ako spôsob optimalizácie politiky pre agentov, ktorí riešia úlohy pomocou viacerých nástrojov. Kľúčová myšlienka je, že odmena nemá zostať iba na úrovni finálneho úspechu či neúspechu. Výskumníci sa snažia preniesť časť signálu aj do jednotlivých krokov trajektórie, aby model dostal konkrétnejšiu spätnú väzbu: ktoré rozhodnutia mu pomohli dostať sa bližšie k správnej odpovedi a ktoré boli iba nákladným odbočením bez prínosu.
Technicky to robia cez takzvaný rewarded rollout tree, teda strom možných priebehov riešenia. Trajektórie v ňom najprv zdieľajú spoločný prefix a až potom sa vetvia do alternatívnych rozhodnutí. Práve to umožňuje porovnávať rôzne voľby v rovnakom kontexte, namiesto toho, aby sa porovnávali iba úplne odlišné celé behy. V agentických úlohách je to dôležité, lebo malé rozhodnutie v jednom kroku môže zásadne zmeniť všetko, čo nasleduje.
PORTool potom odhaduje dôležitosť jednotlivých krokov dvojzložkovým spôsobom. Hlavný signál sleduje, či potomkovia daného kroku ešte vôbec dokážu dôjsť k správnej finálnej odpovedi. Druhý, pomocný signál sleduje, či volania nástrojov prešli formátovými obmedzeniami a či sa dali úspešne spustiť. To je praktický detail, ktorý často v benchmarkoch zaniká: agent nemusí zlyhať preto, že „nevie myslieť“, ale preto, že poslal zle zostavené parametre alebo narazil na vykonávaciu chybu.
Podľa Apple prináša tento prístup dve výhody naraz. Prvou je vyššia presnosť finálnych odpovedí oproti vtedajším baseline metódam. Druhou je zníženie počtu krokov s volaniami nástrojov, teda efektívnejšie riešenie. To je dôležité nielen výskumne, ale aj prevádzkovo. V reálnych agentických produktoch je každé ďalšie volanie nástroja spojené s latenciou, nákladmi a ďalšou možnosťou chyby. Tréning, ktorý vedie k presnejšiemu aj kratšiemu správaniu, je preto komerčne cenný.
Význam práce presahuje samotný Apple. V posledných mesiacoch sa ukazuje, že výkon agentov čoraz menej závisí iba od „veľkosti modelu“ a čoraz viac od toho, ako dobre sa podarí stabilizovať plánovanie, výber nástroja, kontrolu nad formátom vstupov a spätnú väzbu počas učenia. PORTool presne zapadá do tejto línie. Namiesto veľkých marketingových tvrdení o autonómii rieši veľmi konkrétny problém kreditného priradenia, teda to, komu v reťazci krokov prislúcha zásluha za úspech alebo vina za zlyhanie.
Zaujímavé je aj to, že Apple nespája prácu s novým všeobecným benchmarkom, ale s metodikou učenia. To môže mať dlhší dosah než jednorazový posun na leaderboarde. Ak sa ukáže, že kroková dôležitosť funguje naprieč úlohami, môže podobný princíp preniknúť do tréningu agentov, ktorí používajú API, databázy, prehliadače alebo interné firemné nástroje. Práve tam dnes vzniká množstvo nákladných a ťažko diagnostikovateľných chýb, ktoré sa pri hodnotení len podľa finálneho výsledku strácajú.
Súčasne však treba pripomenúť, že ide o výskumný výsledok, nie o hotový produktový návod. Práca bola prijatá na workshop v rámci ACL 2026 a oficiálna stránka Apple ju páruje s arXiv verziou, kde je vidieť aj staršiu publikačnú históriu rukopisu. To znamená, že trh by nemal čakať okamžité nasadenie konkrétnej techniky v komerčnom rozhraní. Skôr ide o signál, kam sa posúva prístup k trénovaniu agentov: od hrubého odmeňovania podľa výsledku k jemnejšiemu hodnoteniu kvality jednotlivých rozhodnutí.
Pre širší ekosystém agentov je to podstatná správa. Kým prvá vlna bola posadnutá tým, či model vie nástroj vôbec zavolať, ďalšia vlna sa sústredí na to, ako ho naučiť volať nástroj presne, úsporne a v správnom čase. PORTool ukazuje, že rozhodujúce už nemusí byť iba to, koľko nástrojov agent „má“, ale ako dobre dostáva spätnú väzbu na každý jeden krok. A práve v tom sa dnes môže lámať rozdiel medzi agentom, ktorý občas trafí správny výsledok, a agentom, ktorý sa dá nasadiť na opakovateľnú prácu.
Ak Apple a ďalší výskumníci uspejú v zlepšovaní takýchto tréningových schém, dôsledok bude citeľný aj mimo laboratórií. Menej zbytočných tool callov znamená nižšie náklady a nižšiu latenciu. Lepšie priradenie odmeny znamená menej nepredvídateľných chýb. A presnejší výber krokov znamená, že agentické workflow budú jednoduchšie auditovateľné aj laditeľné. To je pre firmy a vývojárov možno dôležitejšie než ďalší abstraktný sľub o všeobecnej inteligencii.
Zdroje