AI výskum8. júna 20263 min čítania

Nový preprint rozkladá activation steering na uhol a veľkosť skrytého stavu

Štúdia na siedmich jazykových modeloch ukazuje, že pri riadení správania modelu nestačí sledovať iba smer zásahu. Uhol nesie väčšinu konceptovej informácie, no veľkosť skrytého stavu rozhoduje o stabilite a vedľajších účinkoch.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#výskum #LLM #interpretovateľnosť #bezpečnosť AI #activation steering

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Activation steering patrí medzi najjednoduchšie techniky, ktorými výskumníci skúšajú meniť správanie veľkých jazykových modelov bez nového trénovania. Do skrytých stavov modelu sa pridá vektor spojený s určitým konceptom a sleduje sa, či model začne viac vykazovať požadovanú vlastnosť alebo potláčať nežiaducu. Nový preprint Georgiiho Aparina a Tatiany Gaintsevej sa pozerá na zdanlivo technický detail, ktorý však môže rozhodovať o tom, či je takýto zásah použiteľný aj mimo laboratórnej ukážky: čo presne meníme, keď do aktivácie pridáme riadiaci vektor.

Autori rozkladajú zásah na dve časti. Prvá je uhlová zmena, teda to, ako sa reprezentácia tokenu natočí smerom ku konceptovému vektoru. Druhá je radiálna zmena, čiže zmena normy alebo veľkosti skrytého stavu. V bežnom aditívnom steeringu sú tieto dve veci previazané jedným koeficientom. Keď zásah zosilníme, meníme zároveň smer aj veľkosť reprezentácie. To sťažuje interpretáciu výsledkov: nevieme, či sa model správa inak preto, že sa aktivácia viac zarovnala s konceptom, alebo preto, že sme narušili jej prirodzenú veľkosť.

Práve preto sa v poslednom období objavili sférické metódy steeringu, ktoré sa snažia meniť najmä smer a normu držať pod kontrolou. Často vychádzajú z predpokladu, že normy skrytých stavov nenesú dôležitú konceptovú informáciu. Nový preprint tento predpoklad neberie ako samozrejmosť. Autori pripravili kontrolovanú empirickú štúdiu, v ktorej oddeľujú uhlovú a radiálnu zložku a skúmajú ich vplyv naprieč siedmimi jazykovými modelmi.

Výsledok je užitočne nuansovaný. Koncepty sú podľa práce reprezentované predovšetkým v uhlovej štruktúre skrytého priestoru, čo podporuje motiváciu sférických prístupov. Ak chceme model posunúť smerom k určitej vlastnosti, samotné natočenie aktivácie voči konceptovému smeru je skutočne hlavný signál. To je dobrá správa pre metódy, ktoré sa snažia robiť steering interpretovateľnejšie a menej invazívne než jednoduché pripočítanie veľkého vektora.

Zároveň však štúdia ukazuje, že normu nemožno jednoducho ignorovať. Veľkosť skrytého stavu je dôležitá pre stabilitu zásahu a pre jeho downstream dôsledky. Dva zásahy môžu dosiahnuť podobný konceptový efekt, ale odlišne meniť normu a tým vyvolať rozdielne vedľajšie správanie. V praxi to znamená, že bezpečnostný alebo produktový tím, ktorý používa steering na zníženie toxického štýlu, posilnenie opatrnosti alebo zmenu osobnosti asistenta, by nemal sledovať iba to, či požadovaná vlastnosť narástla. Mal by merať aj to, akú radiálnu stopu zásah zanechal v reprezentáciách.

Pre interpretovateľnosť modelov je dôležité najmä to, že práca ponúka spoločný jazyk pre porovnávanie rôznych steeringových metód. Namiesto otázky, či je lepší aditívny alebo sférický zásah, sa dá pýtať presnejšie: aký uhlový posun vytvára, ako mení normu a ako sú tieto dve zložky previazané. Takéto rozdelenie môže pomôcť pri návrhu metód, ktoré sú čitateľnejšie, ľahšie laditeľné a menej náchylné na nečakané zlyhania pri prenose medzi modelmi.

Praktický dopad sa môže ukázať najmä pri budúcich systémoch riadenia správania modelov bez plného fine-tuningu. Activation steering je lákavý, lebo je lacný a dá sa aplikovať inferenčne. Ak má byť použitý v citlivých aplikáciách, nestačí mať jeden posuvník intenzity. Preprint naznačuje, že vhodnejším rozhraním by boli parametre, ktoré samostatne opisujú uhlové zarovnanie a radiálnu zmenu. To by umožnilo hľadať zásahy, ktoré majú dosť silný konceptový účinok, ale minimálne narúšajú bežnú geometriu aktivácií.

Treba dodať, že ide o čerstvý arXiv preprint, nie o etablovaný štandard. Autori prinášajú empirický obraz a interpretáciu, ktoré bude potrebné overiť na širších triedach modelov, úloh a konceptov. Aj tak je práca cenná, pretože posúva debatu od jednoduchého „funguje to alebo nie“ k presnejšej diagnostike toho, prečo steering funguje rôzne v rôznych nastaveniach.

Pre firmy a výskumné tímy, ktoré skúmajú ľahké zásahy do správania LLM, je hlavná lekcia praktická: ak zásah vyzerá úspešne len na jednej metrike, ešte nemusí byť robustný. Geometria skrytého priestoru má viac rozmerov než jeden koeficient. Rozklad na uhol a normu dáva lepšiu šancu odhaliť, či model skutočne mení požadovaný koncept, alebo len reaguje na príliš hrubý zásah do svojich interných reprezentácií.

Zdroje

Nový preprint rozkladá activation steering na uhol a veľkosť skrytého stavu

Ďalšie články k téme

Claude Opus 5 cieli na dlhé agentické úlohy a prináša miliónový kontext

Apple navrhuje LEAD, aby sa dlhé uvažovanie modelov vedelo zotaviť z chýb

AWS radí presunúť ochranu AI kódu z každého tokenu na hranice dôvery