aifeed.skAI Feed
AI výskum2 min čítania

Brain Score naznačuje, že podobnosť LLM s mozgom môže merať skôr štruktúru než ľudské porozumenie

Výskumníci ukazujú, že vysoké Brain Score dosahujú aj modely trénované na veľmi odlišných štruktúrovaných dátach vrátane genómu či kódu. To spochybňuje jednoduché tvrdenie, že metrika automaticky znamená hlbšiu podobnosť jazykových modelov s ľudským spracovaním jazyka.

Autor: Redakcia AI Feed

Typ zdroja
Výskumná práca
Zdroj / autorita
arXiv

Metrika Brain Score sa v posledných rokoch často používa ako argument, že reprezentácie v jazykových modeloch pripomínajú spracovanie jazyka v ľudskom mozgu. Nová práca však naznačuje, že interpretácia tejto metriky môže byť príliš ambiciózna. Autori ukazujú, že dobré skóre nedosahujú iba modely trénované na prirodzených jazykoch, ale aj systémy učiace sa na iných štruktúrovaných sekvenciách.

Konkrétne testovali modely trénované na mnohých prirodzených jazykoch z rôznych jazykových rodín, ale aj na dátach ako ľudský genóm, Python či čisto hierarchické zátvorkové sekvencie. Výsledok podľa abstraktu znie provokatívne: viacero takýchto modelov sa dostáva k podobným Brain Score hodnotám ako modely trénované na prirodzenom jazyku. To naznačuje, že metrika môže zachytávať skôr schopnosť učiť sa všeobecné štruktúrne pravidlá než špecifickú podobnosť s ľudským chápaním významu.

Pre akademickú debatu ide o dôležitú korekciu. V oblasti mechanistic interpretability a kognitívneho modelovania sa totiž ľahko stane, že užitočná proxy metrika začne byť čítaná ako oveľa silnejší dôkaz, než v skutočnosti je. Ak Brain Score reaguje aj na modely, ktoré sa učia z genomických sekvencií alebo programovacieho jazyka, potom by opatrnosť mala nastať vždy, keď z vysokého skóre vyvodzujeme tvrdenia o „mozgovosti“ či psychologickej vierohodnosti LLM.

To neznamená, že Brain Score je zbytočný. Skôr sa mení jeho interpretácia. Môže ísť o užitočný nástroj na meranie toho, či model zachytáva hlbšie spoločné štruktúry v sekvenčných dátach. To je samo osebe cenné zistenie, pretože ukazuje, že niektoré reprezentácie vznikajú aj bez striktne jazykového tréningu. Problém nastáva až vo chvíli, keď sa z tejto podobnosti urobí priamy dôkaz ľudského typu porozumenia.

Pre vývoj frontier modelov má práca aj praktický rozmer. Benchmarky a proxy metriky sa dnes používajú nielen v akademických článkoch, ale aj v internom hodnotení nových architektúr. Ak je metrika príliš široká a spája viac javov naraz, tím môže optimalizovať model na skóre, ktoré nehovorí presne o tom, čo si myslí. To je starý problém benchmarkingu, no pri interpretačných metrikách býva ešte zradnejší, lebo výsledok sa ľahko prečíta filozoficky aj marketingovo.

Zaujímavý je aj presah mimo jazyk. Ak podobné skóre vedia získať modely trénované na genóme či štruktúrovaných symbolických sekvenciách, otvára sa otázka, či existujú všeobecné princípy spracovania sekvenčnej štruktúry, ktoré sa objavujú naprieč veľmi rozdielnymi doménami. To by mohlo byť cenné pre multimodálne modely, bioinformatiku aj návrh efektívnejších reprezentácií, no zároveň to oslabuje príbeh, že Brain Score automaticky meria „jazyk v mozgu“.

Treba dodať, že abstrakt neponúka všetky detaily o dátach, architektúrach ani o presnej citlivosti metriky v jednotlivých experimentoch. Už teraz je však zrejmé, že práca útočí na príliš pohodlné interpretácie obľúbenej metriky. V čase, keď sa v AI komunite radi hľadajú analógie medzi modelmi a ľudským myslením, je takýto výsledok zdravou protiváhou.

Pre slovenských developerov a výskumníkov je podstatná najmä praktická lekcia: pri evaloch si treba vždy strážiť, čo benchmark skutočne meria a čo mu iba pripisujeme. Brain Score môže zostať užitočnou súčasťou výskumného toolboxu, ale nie ako skratka k tvrdeniu, že LLM už rozumejú jazyku podobne ako človek.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie