AI výskum23. júna 20263 min čítania

Apple ukazuje, že počet anotátorov má závisieť od metriky

Výskum Apple Machine Learning skúma učenie z rozdelení ľudských štítkov. Ukazuje, že niektoré metriky sa nasýtia pri desiatich anotátoroch, iné potrebujú dvadsať až päťdesiat.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#NLP #anotácie #hodnotenie modelov #Apple Machine Learning Research #soft labels

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 2 zdroje.

Apple Machine Learning Research zverejnil prácu o tom, ako veľa ľudských anotácií je potrebných v situáciách, keď sa anotátori nezhodnú na jednej správnej odpovedi. Namiesto toho, aby sa nesúhlas bral ako šum, článok ho opisuje ako signál. Pri úlohách prirodzeného jazyka, bezpečnosti obsahu alebo citlivých klasifikáciách totiž často neexistuje jednoduchá hranica medzi jasnou a nejasnou položkou.

Výskumná otázka znie prakticky: ak zbierame viacero ľudských posúdení pre jednu položku, kedy ich už máme dosť? Bežný prístup by mohol zvoliť rovnaký počet anotátorov pre všetky úlohy. Apple však ukazuje, že odpoveď závisí od toho, čo chceme modelom merať. Iný počet anotátorov stačí, ak nás zaujíma podobnosť výsledného rozdelenia štítkov, a iný počet je potrebný, ak chceme zistiť, či model rozpozná samotnú neistotu a spornosť položky.

Autori pracovali s dátovou sadou ChaosNLI, ktorá obsahuje sto nezávislých ľudských úsudkov na jednu položku v úlohe natural language inference. Modely DeBERTa a RoBERTa dolaďovali na subsamplovaných rozdeleniach štítkov a sledovali, ako sa výsledky menia pri rôznom počte anotátorov. V trojtriednej NLI úlohe sa ukázalo, že metrika KL divergencie, teda zhoda s rozdelením odpovedí, sa nasýti približne pri desiatich anotátoroch.

Inak však vyzerá metrika entropy correlation, ktorá skúma, či model vie rozlíšiť položky vyvolávajúce nesúhlas. Tam podľa práce treba približne dvadsať až päťdesiat anotátorov, aby sa výsledok stabilizoval. To je dôležitý rozdiel. Model môže pomerne skoro odhadnúť priemerné rozdelenie tried, no podstatne ťažšie je naučiť ho, ktoré položky sú naozaj nejednoznačné pre ľudí.

Práca tiež porovnáva mäkké štítky s klasickým label smoothingom. Label smoothing je technika, pri ktorej sa ostré one-hot štítky mierne zmäkčia, aby sa model menej preučil. Apple však ukazuje, že takáto umelá hladkosť nenahrádza skutočné rozdelenie ľudského nesúhlasu. Pri korelácii entropie dosahoval label smoothing približne hodnoty r 0,45 až 0,49, zatiaľ čo mäkké štítky zo skutočných anotácií dosiahli r 0,643.

Podstatné je, že reálne mäkké štítky nesú informáciu na úrovni konkrétnej položky. Dve vety môžu mať rovnakú väčšinovú triedu, ale jedna môže byť pre ľudí jasná a druhá sporná. Label smoothing ich vyhladí podobne, zatiaľ čo ľudské rozdelenie zachytí rozdiel v neistote. Pre aplikácie, ktoré rozhodujú o riziku, moderovaní alebo eskalácii človeku, je takáto informácia často dôležitejšia než samotná predikovaná trieda.

Autori uvádzajú, že výhoda mäkkých štítkov sa opakuje naprieč dvoma architektúrami, ne-NLI predtrénovaným baseline modelom aj v prieskumnom cross-domain hodnotení na bezpečnosti obsahu. To naznačuje, že výsledok nemusí byť iba špecifikom jednej dátovej sady. Stále však ide o výskumný výsledok v kontrolovanom nastavení, nie o univerzálne pravidlo pre každý druh anotácie.

Praktický dopad je najmä rozpočtový. Anotácie sú drahé a organizácie často volia fixný počet hodnotiteľov podľa zvyku. Táto práca odporúča opačný postup: najprv určiť cieľovú metriku a až potom počet anotátorov. Ak tím potrebuje len hrubé rozdelenie tried, môže stačiť menší počet. Ak však chce merať nejednoznačnosť alebo riziko sporných prípadov, lacná schéma môže systematicky podhodnotiť neistotu.

Pre vývoj AI systémov je to pripomienka, že kvalita dát nie je len otázkou veľkosti datasetu. Dôležité je aj to, ako sú zachytené rozdiely medzi ľuďmi. V čase, keď sa modely používajú pri moderovaní, zdravotných odporúčaniach, právnych dokumentoch alebo hodnotení bezpečnosti, môže byť schopnosť zachytiť ľudský nesúhlas rozhodujúca. Apple týmto výskumom neprináša nový produkt, ale užitočné metodické pravidlo: anotácia sa nemá plánovať oddelene od metriky, ktorú má neskôr podporovať.

Dôležitá je aj širšia metodická lekcia pre benchmarky. Ak dataset skrýva skutočný ľudský nesúhlas za jediný väčšinový štítok, model sa môže javiť presnejší, než v skutočnosti je pri nejasných položkách. Mäkké rozdelenia štítkov síce zvyšujú cenu anotácie, ale lepšie ukazujú, kde má systém priznať neistotu, vyžiadať ďalší kontext alebo odovzdať rozhodnutie človeku. To je pri rizikových aplikáciách často hodnotnejšie než malé zlepšenie priemernej presnosti.

Zdroje

Apple ukazuje, že počet anotátorov má závisieť od metriky

Ďalšie články k téme

Agenti potrebujú viac než prístupové práva: preprint navrhuje deontické pravidlá behu

Agentické RAG v nemocnici: preprint ukazuje, kde klinická extrakcia funguje a kde sa láme

AURA navrhuje audit LLM sudcov podľa neistoty namiesto pevnej vzorky