LLM stále zlyhávajú pri abstraktných pojmoch viac, než sa čakalo
Nový paper pripomína, že veľké jazykové modely nemusia mať pevné chápanie abstraktných významov. Na úlohe ReCAM zaostávajú aj za staršími fine-tuned modelmi.
Autor: Redakcia AI Feed
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- arXiv
Veľké jazykové modely sa často prezentujú ako systémy, ktoré vďaka rozsahu tréningu a generalizácii začínajú rozumieť jazyku hlbšie než staršie architektúry. Nová práca na arXive však pripomína nepríjemnú hranicu tohto príbehu: pri abstraktných významoch môžu LLM zaostávať citeľnejšie, než by sa podľa dnešného marketingu zdalo. Autorka skúma úlohu ReCAM zo SemEval-2021, kde model nedopĺňa konkrétny objekt alebo meno, ale musí zachytiť abstraktný pojem v kontexte pasáže a vybrať správnu možnosť z viacerých kandidátov.
Výsledok je pre hype okolo reasoning-u triezviaci. Podľa práce majú aj silné LLM vrátane GPT-4o v zero-shot, one-shot aj few-shot nastaveniach problém s abstraktným významovým porozumením, kým jemne doladené modely typu BERT či RoBERTa v tejto úlohe vychádzajú lepšie. Autorčin argument nie je, že klasické modely sú zrazu „lepšie“ vo všeobecnosti. Skôr ukazuje, že špecifické jazykové schopnosti sa pri veľkých generatívnych modeloch nemusia automaticky zlepšovať rovnako ako benchmarkové skóre na populárnych testoch.
Praktický význam je veľký. V enterprise aj spotrebiteľských produktoch sa čoraz viac spoliehame na to, že LLM rozumejú zámeru, tónu a významu aj v menej explicitných formuláciách. Lenže abstraktné pojmy ako dôsledok, motivácia, legitimita, konflikt či závislosť sa v dokumentoch, zmluvách, správach alebo zdravotníckych poznámkach objavujú neustále. Ak model pri takýchto vrstvách významu zlyháva, problém sa nemusí prejaviť ako okatá halucinácia. Častejšie pôjde o subtílne, no drahé chybné čítanie kontextu.
Zaujímavé je aj to, že práca neostáva iba pri kritike LLM. Navrhuje bidirectional attention classifier inšpirovaný tým, ako ľudia pri čítaní prechádzajú medzi pasážou a možnosťami odpovedí. Tento prístup podľa výsledkov zlepšuje fine-tuned modely o niekoľko percentuálnych bodov. To je dôležitý signál pre celý trh: nie všade bude víťaziť stratégia „pustime do všetkého väčší generatívny model“. V niektorých úlohách sa môže oplatiť viac disciplinovaný architektonický dizajn, menší model a kvalitnejšie cielenie na konkrétny jazykový problém.
Pre vývoj produktov je to zároveň varovanie pred príliš voľným prenášaním výsledkov z generických benchmarkov do reálnych workflowov. Model môže pôsobiť výborne pri sumarizácii, kódovaní alebo chatovaní, no slabšie pri úlohách, kde treba stabilne pracovať s abstraktnými pojmami a vzťahmi. To sa týka právnych nástrojov, analytických copilotov, školských tutorov aj systémov na firemnú dokumentáciu. Ak je cieľom skutočné „porozumenie“, nestačí sledovať len celkové skóre alebo pôsobivý dojem z konverzácie.
V širšom kontexte ide o ďalší kamienok do mozaiky, ktorá oddeľuje povrchovú plynulosť od hlbšieho sémantického uchopenia jazyka. Generatívne modely sú mimoriadne dobré v produkcii presvedčivého textu, no práve preto je ťažké odhadnúť, kedy reálne rozumejú a kedy len veľmi efektívne aproximujú štatistické vzory. Práce ako táto sú cenné práve tým, že cielia na úlohy, kde sa tieto dve veci prestávajú prekrývať.
Pre slovenský a európsky kontext je dôležité ešte niečo: ak chcú firmy stavať interné AI workflowy na citlivejších typoch dokumentov, budú potrebovať jemnejšiu evaluačnú vrstvu než len všeobecný benchmark alebo demosession s vedením. Testy orientované na abstraktné chápanie, latentné vzťahy a viacvýznamové formulácie sa môžu stať dôležitou súčasťou procurementu aj bezpečnostného overovania modelov.
Táto práca teda nespochybňuje, že LLM sú užitočné. Spochybňuje pohodlnú skratku, podľa ktorej plynulosť automaticky znamená hlboké porozumenie. A to je presne typ korekcie, ktorý dnešný trh potrebuje. Čím viac sa AI tlačí do profesionálnych procesov, tým menej si môže dovoliť zamieňať dobrý dojem za skutočnú významovú presnosť.
Zdroje