AI výskum26. apríla 20263 min čítania

Anthropic skúša trh, kde za ľudí vyjednávajú agenti a silnejší model získava výhodu

Anthropic v experimente Project Deal nechal agentov Claude vyjednávať reálne obchody medzi zamestnancami. Výsledok ukazuje, že agenti už vedia uzatvárať dohody bez človeka v slučke a že kvalita modelu sa môže priamo premeniť na lepšie obchodné výsledky.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#Anthropic #Claude #AI agenti #agent-to-agent commerce #vyjednávanie #digitálne trhy

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Anthropic otvoril zaujímavú sondu do toho, ako by mohol vyzerať svet, v ktorom za ľudí nevyjednávajú priamo ľudia, ale ich softvéroví zástupcovia. Vo firemnom experimente Project Deal vytvoril interný inzertný trh podobný bazáru, kde na oboch stranách nestáli priamo zamestnnanci, ale agenti postavení na modeloch Claude. Tí dostali zadanie zistiť, čo ich používateľ chce predať, čo chce kúpiť, za akých podmienok a s akým štýlom komunikácie majú rokovať. Potom už obchodovali samostatne.

Dôležité je, že nešlo iba o simuláciu bez následkov. Anthropic do pilotu zapojil 69 zamestnancov, každému pridelil rozpočet 100 dolárov a po skončení experimentu sa reálne uskutočnili aj samotné výmeny tovaru. Agenti tak nepracovali s abstraktnými bodmi, ale s konkrétnymi predmetmi a skutočnými finančnými dôsledkami. Firma uvádza, že počas týždňa vzniklo 186 dohôd v celkovej hodnote niečo vyše 4 000 dolárov. V praxi sa teda ukázalo, že agenti už dnes vedia samostatne prejsť celý reťazec od zberu preferencií cez inzerovanie až po dohodu o cene a uzavretie obchodu.

Anthropic pri tom nesledoval len to, či sa obchody vôbec podaria. Skúšal aj podstatnejšiu otázku: čo sa stane, keď na trhu proti sebe postavíte agentov rôznej kvality. Okrem jedného „reálneho“ trhu bežali paralelne aj ďalšie varianty, v ktorých používateľov nezastupoval vždy ten istý model. Časť agentov bežala na výkonnejšom modeli Claude Opus 4.5, časť na slabšom Claude Haiku 4.5. Výsledok bol pre firmu dôležitý aj z regulačného a trhového pohľadu: ľudia zastúpení silnejším modelom dosahovali objektívne lepšie výsledky, no tí so slabším modelom si svoj hendikep často ani neuvedomili.

Práve toto môže byť jeden z najsilnejších záverov celého experimentu. Ak sa agentické nakupovanie, predaj alebo vyjednávanie rozšíri do bežného digitálneho prostredia, nerovnosť medzi modelmi sa nemusí prejavovať len v benchmarkoch, ale aj v reálnych peniazoch. Lepší agent môže vyjednať výhodnejšiu cenu, skôr zachytiť lepšiu príležitosť alebo presnejšie odhadnúť hranicu protistrany. Slabší agent pritom nemusí zlyhať očividne. Môže fungovať dosť dobre na to, aby používateľ nadobudol pocit, že všetko prebehlo v poriadku, hoci v rovnakom prostredí existujú výkonnejší zástupcovia, ktorí pre svojich majiteľov systematicky získavajú lepšie podmienky.

Z obchodného pohľadu je Project Deal malý experiment, ale pre celý agentický trh je to dôležitý signál. Väčšina diskusie o agentoch sa dnes točí okolo produktivity, automatizácie workflow alebo firemných asistentov. Anthropic ukazuje iný smer: agent môže byť aj ekonomický aktér, ktorý reprezentuje používateľa pri rokovaní s inými agentmi. To posúva debatu od otázky „či agent vybaví úlohu“ k otázke „či agent obháji záujem svojho majiteľa v konkurenčnom prostredí“. To je omnoho tvrdší test schopností aj spoľahlivosti.

Zaujímavé je aj to, že firma nechala agentov konať bez priebežného schvaľovania človekom. Po štarte experimentu sa ľudia do rokovaní nevracali a agenti sa ich nepýtali na potvrdenie pri každom kroku. Takýto režim je dôležitý, lebo práve na ňom sa láme rozdiel medzi chatbotom a agentom. Chatbot môže radiť, navrhovať alebo sumarizovať. Agent však dostáva mandát konať v mene používateľa. Ak má mať podobná technológia v budúcnosti význam vo firemnom nákupe, zákazníckej podpore, obchodovaní alebo interných procesoch, bude musieť práve takúto mieru autonómie zvládať bezpečne a predvídateľne.

Anthropic zároveň priznáva limity. Išlo o pilot s malou, samovýberovou skupinou účastníkov z prostredia firmy, ktorá má k AI prirodzene bližšie než bežní používatelia. To znamená, že výsledky nemožno mechanicky preniesť na otvorený internet ani na regulované odvetvia. Napriek tomu je experiment cenný, pretože nezostal pri teórii. Namiesto ďalšieho abstraktného rozhovoru o budúcnosti agentov ponúka konkrétne dáta o tom, ako sa modely správajú v situácii, kde ide o cenu, stratégiu, preferencie a konflikt záujmov.

Pre trh to znamená tri veci. Po prvé, agent-to-agent commerce sa z kategórie vzdialenej vízie posúva do testovateľnej reality. Po druhé, kvalita modelu sa môže stať priamou konkurenčnou výhodou v prostredí, kde sa stretávajú zástupcovia rôznych používateľov. A po tretie, ak si slabšie zastúpená strana svoj nevýhodný výsledok nevie ani uvedomiť, rastie tlak na transparentnosť, audit a nové pravidlá férovej súťaže medzi agentmi. Project Deal preto nie je len kuriozita z internej Slack komunity. Je to pomerne presný náhľad do toho, aké trhové a produktové otázky bude musieť AI sektor riešiť skôr, než agentom dovolí konať vo veľkom za ľudí.

Zdroje

Anthropic skúša trh, kde za ľudí vyjednávajú agenti a silnejší model získava výhodu

Ďalšie články k téme

USA nariadili Anthropicu pozastaviť prístup k modelom Fable 5 a Mythos 5

AllenAI otvára olmo-eval, pracovný stôl na priebežné hodnotenie modelov

IBM skúša LLM ako navigátora pri hľadaní kvantových opravných kódov