AI výskum20. apríla 20262 min čítania

Brain Score naznačuje, že podobnosť LLM s mozgom môže merať skôr štruktúru než ľudské porozumenie

Výskumníci ukazujú, že vysoké Brain Score dosahujú aj modely trénované na veľmi odlišných štruktúrovaných dátach vrátane genómu či kódu. To spochybňuje jednoduché tvrdenie, že metrika automaticky znamená hlbšiu podobnosť jazykových modelov s ľudským spracovaním jazyka.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Výskumná práca
Zdroj / autorita: arXiv

#LLM #benchmarky #Brain Score #neuroveda #interpretability

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 1 zdroj.

Metrika Brain Score sa v posledných rokoch často používa ako argument, že reprezentácie v jazykových modeloch pripomínajú spracovanie jazyka v ľudskom mozgu. Nová práca však naznačuje, že interpretácia tejto metriky môže byť príliš ambiciózna. Autori ukazujú, že dobré skóre nedosahujú iba modely trénované na prirodzených jazykoch, ale aj systémy učiace sa na iných štruktúrovaných sekvenciách.

Konkrétne testovali modely trénované na mnohých prirodzených jazykoch z rôznych jazykových rodín, ale aj na dátach ako ľudský genóm, Python či čisto hierarchické zátvorkové sekvencie. Výsledok podľa abstraktu znie provokatívne: viacero takýchto modelov sa dostáva k podobným Brain Score hodnotám ako modely trénované na prirodzenom jazyku. To naznačuje, že metrika môže zachytávať skôr schopnosť učiť sa všeobecné štruktúrne pravidlá než špecifickú podobnosť s ľudským chápaním významu.

Pre akademickú debatu ide o dôležitú korekciu. V oblasti mechanistic interpretability a kognitívneho modelovania sa totiž ľahko stane, že užitočná proxy metrika začne byť čítaná ako oveľa silnejší dôkaz, než v skutočnosti je. Ak Brain Score reaguje aj na modely, ktoré sa učia z genomických sekvencií alebo programovacieho jazyka, potom by opatrnosť mala nastať vždy, keď z vysokého skóre vyvodzujeme tvrdenia o „mozgovosti“ či psychologickej vierohodnosti LLM.

To neznamená, že Brain Score je zbytočný. Skôr sa mení jeho interpretácia. Môže ísť o užitočný nástroj na meranie toho, či model zachytáva hlbšie spoločné štruktúry v sekvenčných dátach. To je samo osebe cenné zistenie, pretože ukazuje, že niektoré reprezentácie vznikajú aj bez striktne jazykového tréningu. Problém nastáva až vo chvíli, keď sa z tejto podobnosti urobí priamy dôkaz ľudského typu porozumenia.

Pre vývoj frontier modelov má práca aj praktický rozmer. Benchmarky a proxy metriky sa dnes používajú nielen v akademických článkoch, ale aj v internom hodnotení nových architektúr. Ak je metrika príliš široká a spája viac javov naraz, tím môže optimalizovať model na skóre, ktoré nehovorí presne o tom, čo si myslí. To je starý problém benchmarkingu, no pri interpretačných metrikách býva ešte zradnejší, lebo výsledok sa ľahko prečíta filozoficky aj marketingovo.

Zaujímavý je aj presah mimo jazyk. Ak podobné skóre vedia získať modely trénované na genóme či štruktúrovaných symbolických sekvenciách, otvára sa otázka, či existujú všeobecné princípy spracovania sekvenčnej štruktúry, ktoré sa objavujú naprieč veľmi rozdielnymi doménami. To by mohlo byť cenné pre multimodálne modely, bioinformatiku aj návrh efektívnejších reprezentácií, no zároveň to oslabuje príbeh, že Brain Score automaticky meria „jazyk v mozgu“.

Treba dodať, že abstrakt neponúka všetky detaily o dátach, architektúrach ani o presnej citlivosti metriky v jednotlivých experimentoch. Už teraz je však zrejmé, že práca útočí na príliš pohodlné interpretácie obľúbenej metriky. V čase, keď sa v AI komunite radi hľadajú analógie medzi modelmi a ľudským myslením, je takýto výsledok zdravou protiváhou.

Pre slovenských developerov a výskumníkov je podstatná najmä praktická lekcia: pri evaloch si treba vždy strážiť, čo benchmark skutočne meria a čo mu iba pripisujeme. Brain Score môže zostať užitočnou súčasťou výskumného toolboxu, ale nie ako skratka k tvrdeniu, že LLM už rozumejú jazyku podobne ako človek.

Zdroje

Brain Score Tracks Shared Properties of Languages: Evidence from Many Natural Languages and Structured Sequences

Brain Score naznačuje, že podobnosť LLM s mozgom môže merať skôr štruktúru než ľudské porozumenie

Ďalšie články k téme

Claude Opus 5 cieli na dlhé agentické úlohy a prináša miliónový kontext

Apple navrhuje LEAD, aby sa dlhé uvažovanie modelov vedelo zotaviť z chýb

3D-GIMP odstraňuje objekty z 3D scén jedným generatívnym zásahom a prenášaním textúr