AI výskum1. júna 20263 min čítania

Stanford: dvaja kódovací agenti spolupracujú horšie než jeden

Nový benchmark CooperBench ukazuje, že dnešné AI kódovacie agenty majú problém s koordináciou. Pri spoločnej práci na softvérových úlohách sa výkon dvojíc prepadal aj tam, kde by sa očakával prínos deľby práce.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Stanford HAI

#AI agenti #benchmarky #kódovanie #Stanford HAI #CooperBench

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Stanford HAI upozorňuje na slabé miesto agentickej AI, ktoré sa nedá vyriešiť iba väčším kontextovým oknom alebo lepším programátorským skóre. V novom texte opisuje výsledky štúdie CooperBench: keď dva kódovacie agenty dostanú spoločnú softvérovú úlohu, často dopadnú horšie ako jeden model pracujúci samostatne. Výskumníci to nazývajú koordinačnou medzerou – problémom, pri ktorom modely síce vedia písať kód a komunikovať v prirodzenom jazyku, ale nevedia z tejto komunikácie spraviť spoľahlivú tímovú prácu.

CooperBench je sada viac než 650 úloh zo softvérového inžinierstva, ktoré sú postavené tak, aby dvaja agenti museli spolupracovať. Úlohy pokrývajú Python, TypeScript, Go a Rust a zahŕňajú situácie, kde je potrebné deliť si zodpovednosť, meniť súbory bez vzájomného prepísania práce a priebežne zladiť návrh riešenia. Agenti mohli upravovať kód, spúšťať lokálne príkazy a posielať si správy v reálnom čase. Práve posledná možnosť je dôležitá: test nebol len o tom, či model vie programovať, ale či vie použiť jazyk ako nástroj koordinácie.

Výsledok je nepríjemný pre predstavu, že viac agentov automaticky znamená viac schopností. Podľa Stanfordu sa výkon dvojíc prepadal najmä pri úlohách strednej náročnosti, teda v pásme, kde by sa dalo čakať, že deľba práce pomôže najviac. Jednoduché úlohy zvládne jeden agent sám, extrémne ťažké môžu byť nad možnosti oboch, no práve „stred“ je typický pre reálne tímové programovanie. Ak sa tam spolupráca rozpadá, je to varovanie pre firmy, ktoré chcú agentov spájať do flotíl bez novej tréningovej a kontrolnej vrstvy.

Autori opisujú viacero typov zlyhaní. Agenti si posielali statusové správy, ktoré zneli užitočne, ale nepriniesli rozhodnutie. Ignorovali priame otázky, nedodržali vlastné záväzky alebo prepísali časť riešenia partnera napriek varovaniu. V ľudskom tíme by podobné správanie nebolo iba technickou chybou, ale porušením pracovnej dohody. Modely však často nerozlišujú medzi tým, že „odpovedali“, a tým, že naozaj zladili plán, hranice zodpovednosti a stav spoločného artefaktu.

Dôležitý je aj rozdiel medzi jazykovou plynulosťou a sociálnou funkciou jazyka. Dnešné modely vedia napísať presvedčivé vysvetlenie, no pri spolupráci potrebujú jazyk na akciu: uzavrieť dohodu, potvrdiť vlastníctvo súboru, eskalovať konflikt, vyžiadať si presnú spätnú väzbu a overiť, či druhý agent skutočne urobil sľúbenú prácu. CooperBench naznačuje, že modely sú trénované najmä na individuálne odpovede, nie na dlhšie sociálno-technické protokoly, v ktorých má veta následky pre ďalší postup.

Pre vývojárov agentických systémov z toho vyplýva praktická lekcia. Nestačí pridať chat medzi agentmi a očakávať, že koordinácia vznikne sama. Potrebné sú mechanizmy podobné kontraktom: explicitné rozdelenie úloh, zamykanie alebo rezervácia častí kódu, podpisovanie rozhodnutí, kontrola splnených záväzkov a integračné body, kde sa priebežne overuje kompatibilita zmien. Inak môžu dvaja agenti vytvárať viac práce pre následnú opravu než jeden opatrnejší agent s jasným plánom.

Štúdia je dôležitá aj pre hodnotenie agentov. Mnohé benchmarky merajú, či model vyrieši úlohu sám, prípadne koľko nástrojových volaní potrebuje. Reálne nasadenie však často zahŕňa viac aktérov: modely, ľudí, repozitáre, CI systém, dokumentáciu a schvaľovacie procesy. CooperBench posúva pozornosť od individuálneho výkonu k tímovej spoľahlivosti. Ak agent v izolácii vyzerá silno, no pri koordinácii stráca takmer polovicu schopností, organizácia potrebuje iný test pred tým, než mu zverí spoločné vývojové workflow.

Zároveň nejde o dôkaz, že multiagentné systémy sú slepá ulička. Skôr ukazuje, že „spolupráca“ musí byť samostatný cieľ tréningu a dizajnu. Autori navrhujú odmeňovať koordináciu, sledovať plnenie záväzkov a zlepšiť komunikačné kanály tak, aby agenti nepracovali iba s textovým statusom, ale aj so zdieľaným pohľadom na stav kódu. To je triezve posolstvo pre ďalšiu vlnu AI vývojárskych nástrojov: agenti sa nemusia učiť len lepšie programovať, ale aj lepšie správať ako členovia tímu.

Zdroje

Stanford: dvaja kódovací agenti spolupracujú horšie než jeden

Ďalšie články k téme

LLM a ľudské EEG môžu zdieľať jednu os emočnej valencie, naznačuje nový preprint

IBM: škálovanie podnikových AI agentov nebude stáť iba na dlhšom kontexte

AbaqusAgent skúša zveriť konečno-prvkovú analýzu tímu AI agentov