AI výskum12. mája 20264 min čítania

AIPO chce rozšíriť hranice uvažovania modelov cez aktívnu spoluprácu agentov

Nový arXiv paper navrhuje tréningový rámec, v ktorom si jazykový model počas posilňovaného učenia pýta cielenú pomoc od troch špecializovaných agentov. Autori tvrdia, že takto vie zlepšiť matematické, vedecké aj programátorské úlohy bez toho, aby po tréningu na pomocníkov ďalej spoliehal.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#AI výskum #arXiv #agenti #RLVR #reasoning #AIPO

Keď sa dnes hovorí o zlepšovaní uvažovania veľkých jazykových modelov, často sa spomína reinforcement learning s verifikovateľnou odmenou, teda tréning, pri ktorom sa model učí z úloh, kde sa dá správnosť odpovede automaticky skontrolovať. Tento prístup už ukázal, že vie posunúť matematiku, logiku aj programovanie. Zároveň však naráža na pomerne tvrdý strop: model pri hľadaní riešení stále väčšinou preskúmava iba priestor, ktorý je blízky tomu, čo už sám dokáže. Ak sa zasekne, bežný tréning ho neposunie veľmi ďaleko za jeho vlastnú aktuálnu hranicu schopností.

Práve na tento problém mieri nový paper AIPO zverejnený na arXive. Skratka znamená Active Interaction Policy Optimization a jadro návrhu je jednoduché: namiesto toho, aby sa model pri tréningu spoliehal iba na plné ukážkové riešenia alebo na holú spätnú väzbu typu správne či nesprávne, môže si v kritických miestach pýtať jemnejšiu pomoc od špecializovaných spolupracujúcich agentov. Autori tvrdia, že takto sa dá rozšíriť takzvaná hranica schopností policy modelu, teda okruh problémov, ktoré sa model vie počas učenia naučiť riešiť samostatne.

Navrhnutý systém používa troch pomocníkov s rozdielnymi rolami. Verify Agent má kontrolovať správnosť či priebežnú konzistenciu riešenia, Knowledge Agent dopĺňa chýbajúce faktické alebo doménové vedomosti a Reasoning Agent ponúka náznaky k samotnému postupu uvažovania. Dôležité je, že nejde o to, aby pomocník vždy vygeneroval celé riešenie namiesto hlavného modelu. Zmyslom je dodať cielene zvolené signály práve v bode, kde sa model zasekáva, aby sa počas tréningu naučil podobnú bariéru prekonávať neskôr už sám.

To je odlišné od viacerých doterajších prístupov, ktoré do tréningu pridávajú expert demonstrations, teda kompletné trajektórie alebo celé riešenia od silnejšieho učiteľa. Takéto dáta vedia pomôcť, no bývajú drahé, informačne riedke a často vedú skôr k napodobňovaniu konkrétnej cesty než k širšiemu rozšíreniu priestoru hľadania. AIPO sa snaží získať jemnejší signál: model sa má naučiť, kedy potrebuje overenie, kedy mu chýba znalosť a kedy potrebuje lepší rozklad problému. Pre prax agentických systémov je to zaujímavé aj preto, že podobný vzor práce sa objavuje v reálnych orchestráciách nástrojov a podagentov.

Autori zároveň riešia technický problém, ktorý pri učení z takto dodanej externej pomoci vzniká. Keď model dostáva signály od pomocných agentov, tréning sa môže dostať do off-policy režimu, v ktorom rozdelenie skúseností už úplne nezodpovedá tomu, čo by si policy model generoval sám. Paper preto pridáva upravený importance sampling koeficient a clipping stratégiu, ktoré majú tlmiť skreslenie aj problém miznúcich gradientov. Inými slovami, nejde len o nápad pridať ďalších agentov, ale aj o pokus spraviť takýto tréning numericky stabilným a použiteľným vo väčšom rozsahu.

Najdôležitejšia časť pre posúdenie významu je, samozrejme, vyhodnotenie. Autori reportujú testy na známych benchmarkoch AIME, MATH500, GPQA-Diamond a LiveCodeBench, teda na zmesi matematických, vedeckých a programátorských úloh. Podľa abstraktu AIPO konzistentne zlepšuje výsledky naprieč rôznymi policy modelmi aj rôznymi RLVR algoritmami. To je podstatné, pretože veľa nových tréningových trikov funguje iba v úzkom nastavení alebo na jedinom modeli. Ak by sa tvrdenie o robustnom prenose potvrdilo aj pri širšej replikácii, išlo by o užitočný signál pre laboratóriá, ktoré dnes skúšajú z modelov dostať lepšie uvažovanie bez dramatického rastu výpočtových nákladov.

Z obchodného a produktového pohľadu je na AIPO zaujímavé ešte jedno rozhodnutie: po tréningu má policy model riešiť úlohy samostatne, bez toho, aby pri inferencii ďalej volal pomocných agentov. To znamená, že autori nepredávajú víziu permanentne zložitého multi-agentného runtime, ale skôr multi-agentný tréning ako dočasnú barličku, ktorá zlepší finálny samostatný model. Pre firmy je to dôležitý rozdiel. Runtime orchestration pridáva latenciu, zvyšuje cenu a komplikuje auditovateľnosť. Ak sa časť výhod podarí presunúť do tréningu, výsledkom môže byť lacnejší a jednoduchší produkčný model.

Zároveň však platí, že paper zatiaľ predstavuje výskumný návrh, nie hotový priemyselný štandard. Z abstraktu sa ešte nedá vyčítať, aká je presná cena takejto tréningovej schémy, koľko dodatočných výpočtov stoja pomocní agenti ani či sa prínos udrží pri veľmi veľkých modeloch a dlhších úlohách. Otvorenou otázkou tiež zostáva, do akej miery pomocní agenti neprenášajú do systému vlastné skreslenia. V agentických tréningových slučkách totiž často nestačí vedieť, že výkon stúpol; dôležité je rozumieť aj tomu, prečo stúpol a kde sa môže zlepšenie rozpadnúť pri prenose do nových domén.

Aj tak však AIPO zapadá do čoraz viditeľnejšieho posunu v AI výskume. Namiesto predstavy jedného modelu, ktorý sa všetko naučí izolovane, pribúda záujem o to, ako môže model počas učenia ťažiť z koordinovanej interakcie s inými modulmi, agentmi či nástrojmi. Ak sa tento smer osvedčí, budúce zlepšovanie uvažovania nemusí stáť iba na väčšom počte parametrov alebo na dlhšom reťazení myšlienok, ale aj na inteligentnejšom tréningovom prostredí. AIPO je zaujímavý signál práve v tom, že multi-agentnú spoluprácu neposúva len do používateľského runtime, ale priamo do jadra tréningu.

Pre AIFeed je to silná téma najmä preto, že spája tri línie, ktoré sa dnes v AI stretávajú čoraz častejšie: RLVR ako praktický motor zlepšovania reasoning modelov, agentické rozkladanie práce na špecializované roly a tlak na to, aby bol výsledný model po tréningu stále použiteľný aj bez zložitej orchestrácie. Ak sa podobné techniky uchytia, môžu ovplyvniť nielen frontier laboratóriá, ale aj otvorenejšie research stacky a nástroje pre tréning menších reasoning modelov.

Zdroje

AIPO chce rozšíriť hranice uvažovania modelov cez aktívnu spoluprácu agentov

Ďalšie články k téme

Sem-ECE chce lepšie zmerať, či si jazykové modely veria primerane pri otvorených odpovediach

Apple v BalCapRL učí multimodálne modely opisovať obrázky presnejšie a bez balastu

AWS púšťa Claude Platform cez vlastný účet a billing bez samostatného kontraktu