AI výskum1. júla 20263 min čítania

ScarfBench skúša, či agenti zvládnu migrovať enterprise Javu bez rozbitia správania

IBM Research a Hugging Face predstavili benchmark pre migrácie medzi Spring, Jakarta EE a Quarkus, ktorý hodnotí build, nasadenie aj testy namiesto porovnania s jedným referenčným diffom.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: Hugging Face / IBM Research

#AI agenti #Java #benchmarky #IBM Research #Hugging Face #ScarfBench

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

IBM Research zverejnil na Hugging Face benchmark ScarfBench, ktorý cieli na jednu z najdrahších a najmenej efektných úloh v podnikovej informatike: migráciu starších Java aplikácií medzi frameworkmi. Namiesto toho, aby benchmark meral iba opravu bugov alebo doplnenie malej funkcie, testuje, či AI agent dokáže presunúť aplikáciu medzi ekosystémami Spring, Jakarta EE a Quarkus tak, aby sa projekt zostavil, nasadil a zachoval očakávané správanie.

Tento rozdiel je podstatný. Pri frameworkovej migrácii nestačí nahradiť anotácie alebo zmeniť názvy balíkov. Agent musí rozumieť konfigurácii dependency injection, perzistencii, query vrstvám, build súborom, runtime deskriptorom a testom. Jedna malá chyba môže spôsobiť, že aplikácia síce vyzerá syntakticky správne, ale nespustí sa alebo sa správa inak než pôvodná verzia. ScarfBench preto hodnotí výsledok cez praktické validačné kroky, nie cez podobnosť s ručne pripraveným riešením.

Benchmark obsahuje 34 aplikácií, 102 frameworkových implementácií, 204 migračných úloh, približne 151-tisíc riadkov kódu a viac než 1 300 expertne napísaných testov. Pre evaly kódovacích agentov je to zaujímavý posun, pretože mnoho populárnych testov stále odmeňuje krátke zmeny v izolovaných repozitároch. Enterprise modernizácia je však presne opačný prípad: veľa súborov, historické závislosti, prepojené vrstvy a skryté predpoklady runtime prostredia.

ScarfBench zároveň ukazuje, akým smerom sa budú musieť posúvať evaly pre agentov nasadzovaných vo firmách. Ak má dodávateľ sľubovať automatizovanú modernizáciu, nestačí ukázať, že model napíše pekný patch. Potrebné je merať, či agent dokáže dokončiť dlhší refaktor, prečítať projektové konvencie, opraviť sekundárne chyby a prejsť cez testovací a nasadzovací cyklus. To je bližšie k práci tímu, ktorý musí prejsť z jednej platformy na druhú bez výpadku biznis logiky.

Z pohľadu vývojárskych nástrojov je dôležité aj to, že ScarfBench je otvorený. Súčasťou sú dataset, priestor na Hugging Face, leaderboard aj GitHub repozitár. To umožňuje porovnávať rôznych agentov a zároveň kontrolovať, či sa výsledky neopierajú iba o marketingové ukážky. Pri modernizačných projektoch totiž býva najťažšie odhadnúť návratnosť automatizácie. Benchmark, ktorý simuluje reálne migračné ťažkosti, môže pomôcť zistiť, kde agent šetrí čas a kde ešte potrebuje ľudského architekta.

Pre podniky môže byť najzaujímavejšie, že ScarfBench nemeria len generovanie kódu, ale aj zachovanie správania. To lepšie zodpovedá skutočnej modernizácii: cieľom nie je získať nový kód, ale preniesť funkčný systém do prostredia, ktoré sa ľahšie prevádzkuje, škáluje alebo udržiava. Ak AI agent vygeneruje migráciu, ktorá prejde buildom, no rozbije okrajový prípad v objednávkach alebo autorizácii, projekt sa v praxi nepodaril.

Benchmark má aj širší dopad na diskusiu o agentickom programovaní. Modernizačný agent musí kombinovať plánovanie, čítanie kódu, používanie nástrojov, opravu chýb a iteráciu po neúspešných testoch. To sú schopnosti, ktoré sa často spájajú s autonómnymi vývojármi, no v praxi sa dajú overiť len na úlohách s viacstupňovou spätnou väzbou. ScarfBench preto môže byť pre agentické platformy tvrdší test než klasické bugfix súťaže.

Neznamená to, že benchmark vyrieši celé obstarávanie modernizačných nástrojov. Firmy budú stále potrebovať vlastné referenčné aplikácie, bezpečnostné kontroly a pravidlá pre review. ScarfBench však dáva verejný spoločný základ, na ktorom možno porovnať, či sa modely zlepšujú v type práce, ktorý je pre podnikový softvér skutočne hodnotný.

Ak sa podobné benchmarky presadia, môže sa zmeniť aj marketing okolo kódovacích agentov. Menej podstatné bude, koľko úloh agent vyrieši v syntetickom teste, a viac to, či dokáže zodpovedne previesť existujúci systém cez komplikovanú technologickú zmenu. Pre enterprise Javu je to veľmi konkrétny problém a ScarfBench ho konečne formuluje ako merateľnú agentickú úlohu.

Zdroje

ScarfBench skúša, či agenti zvládnu migrovať enterprise Javu bez rozbitia správania

Ďalšie články k téme

Preprint ukazuje, že opisy nástrojov agentov možno ladiť jedným kvalitným prepisom

PydanticAI 2.2 rozširuje modelovú podporu a evaluačné nástroje pre agentov

Claude Sonnet 5 prichádza na AWS ako lacnejšia chrbtica pre agentov a kódovanie