AI výskum9. mája 20263 min čítania

Apple navrhuje RVPO: pri dolaďovaní modelov trestá kolísanie medzi cieľmi, nie len slabý priemer

Výskumníci z Apple tvrdia, že pri multi-cieľovom dolaďovaní jazykových modelov nestačí maximalizovať priemernú odmenu. Ich metóda RVPO má obmedziť situácie, v ktorých model exceluje v jednej metrike, ale zlyháva v bezpečnosti, formáte alebo pri volaní nástrojov.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#tool calling #HealthBench #RVPO #alignment #RLHF #Apple

Apple publikovalo nový výskum s názvom RVPO, teda Reward-Variance Policy Optimization, ktorý sa zameriava na veľmi praktický problém dnešného dolaďovania modelov. Mnohé moderné postupy bez explicitného kritika skladajú viacero odmien do jedného priemeru. To znie rozumne, kým si človek neuvedomí, že model tak môže získať vysoké skóre tým, že jednu metriku výrazne prekoná, zatiaľ čo inú dôležitú disciplínu systematicky zanedbá. Presne toto Apple pomenúva ako „constraint neglect“.

V praxi ide o dobre známu bolesť produktových tímov. Model môže napríklad odpovedať veľmi informatívne, ale občas poruší formát, ignoruje bezpečnostné obmedzenia alebo zlyhá pri nástrojových pravidlách. Ak sa všetko leje do jedného priemeru, takéto lokálne zlyhania sa v súčte stratia. Pre používateľa však nezáleží len na priemere. Ak aplikácia raz za čas poruší kritický formát alebo zavolá nástroj nesprávnym spôsobom, celá pipeline sa môže rozpadnúť.

RVPO navrhuje iný pohľad: netrestať len nízky súčet odmien, ale aj ich rozptyl. Keď model podáva nevyrovnaný výkon naprieč cieľmi, metóda to penalizuje. Apple opisuje, že sa tým optimalizačný cieľ posúva od „maximalizuj sumu“ k „maximalizuj konzistentnosť“. Znie to ako jemný matematický rozdiel, no praktický význam je veľký. V agentických a produkčných nasadeniach totiž často nechceme model, ktorý je výnimočný len niekedy. Chceme model, ktorý spoľahlivo prejde všetkými podmienkami naraz.

Výskumníci testovali RVPO na rubric-based úlohách v medicínskom a vedeckom uvažovaní aj na tool-callingu s pravidlovými obmedzeniami. Podľa Apple sa metóda hodnotila s až sedemnástimi súčasnými reward signálmi pri modeloch Qwen2.5 v rôznych veľkostiach. Najsilnejší z odprezentovaných výsledkov prišiel na HealthBench, kde 14-miliardová verzia dosiahla skóre 0,261 oproti 0,215 pri porovnávanej metóde GDPO. Popri tom si RVPO držalo konkurencieschopnú presnosť na GPQA-Diamond a vyhlo sa neskoršiemu zhoršovaniu, ktoré Apple pozorovalo pri iných multi-reward postupoch.

To je zaujímavé najmä preto, že HealthBench a tool-calling reprezentujú dva odlišné typy produkčnej bolesti. Pri medicínskom alebo odbornom uvažovaní môže nekonzistencia znamenať, že model síce občas pôsobí brilantne, ale nevyhnutne vynecháva bezpečnostné alebo kvalitatívne zábrany. Pri nástrojových workflow zas aj malé porušenie pravidiel vie viesť k zlému volaniu API, chybnej štruktúre alebo kaskáde zlyhaní v downstream systéme. RVPO tak nevyzerá ako teoretická hračka, ale skôr ako pokus lepšie zladiť tréningový cieľ s tým, čo od modelov žiada reálna prevádzka.

Zaujímavá je aj implicitná správa pre celý alignment ekosystém. Posledné dva roky sa veľa debatovalo o tom, či odmeňovacie funkcie vôbec vedia zachytiť zložité očakávania používateľov. Apple teraz ukazuje, že problém nemusí byť iba v tom, aké rewardy meriame, ale aj v tom, ako ich agregujeme. Ak je agregácia príliš hrubá, model si môže nájsť lacnú cestu k vysokému skóre bez toho, aby sa skutočne naučil vyrovnane plniť viacero požiadaviek.

Pre firmy, ktoré stavajú na menších alebo stredne veľkých modeloch, je to zaujímavé aj z iného dôvodu. Apple ukazuje výsledky na relatívne dostupných veľkostiach vrátane 1.5B, 3B, 7B a 14B. To znamená, že diskusia o robustnom multi-objective doladení sa neobmedzuje len na frontier laboratóriá s najväčšími rozpočtami. Ak sa prístup osvedčí v ďalších replikáciách, môže sa stať praktickou súčasťou post-tréningu v produktoch, kde je dôležitá spoľahlivosť formátu, bezpečnostných pravidiel aj schopnosti pracovať s nástrojmi.

RVPO samo osebe nevyrieši celý problém alignmentu. Je to však užitočný signál, že ďalší pokrok nemusí prísť len z väčších modelov alebo väčšieho množstva dát, ale aj z presnejšie nastavenej optimalizačnej logiky. V čase, keď sa modely presúvajú z chatov do agentických workflow, je konzistentnosť cez viacero cieľov čoraz dôležitejšia. Apple týmto paperom neprináša veľký verejný produktový launch, ale ponúka niečo, čo môže mať na budúce systémy dlhší dosah: techniku, ktorá lepšie trestá nevyrovnanosť tam, kde priemer doteraz zakrýval skutočné slabiny modelu.

Zdroje

Apple navrhuje RVPO: pri dolaďovaní modelov trestá kolísanie medzi cieľmi, nie len slabý priemer

Ďalšie články k téme

Apple ukazuje HeadsUp: 3D hlavy z desiatok kamier vo vyššej kvalite a väčšej mierke

BAIR mapuje nový smer škálovania uvažovania: model si sám rozdelí úlohu paralelne

FinAgent-RAG cieli na výkazy: agentický RAG má zlepšiť finančné otázky aj cenu výpočtu