AI výskum29. mája 20263 min čítania

Štúdia 12-tisíc používateľov ukazuje, že návyky pri LLM sa menia pomaly

Nový preprint analyzuje dlhodobé trajektórie používateľov Microsoft Bing Copilot a porovnáva ich s WildChat-4.8M. Záver je triezvy: ľudia si návyky pri práci s LLM väčšinou neprispôsobujú tak rýchlo, ako naznačujú agregované trendy.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: arXiv

#výskum #Copilot #LLM #arXiv #používatelia

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI výskum a opiera sa o 3 zdroje.

Nový preprint na arXive s názvom „Adopt ≠ Adapt“ skúma, ako sa používatelia veľkých jazykových modelov menia v čase. Autorky analyzovali približne 12-tisíc náhodne vybraných používateľov Microsoft Bing Copilot a porovnali ich správanie s dátami z verejného súboru WildChat-4.8M. Hlavný záver je dôležitý pre produktové tímy aj výskumníkov: skutočnosť, že ľudia začnú používať LLM, ešte neznamená, že rýchlo menia svoje návyky, štýl otázok alebo spôsob riešenia úloh.

Doterajší výskum používateľských interakcií s LLM často poskytoval statický obraz. Ukazoval, aké typy otázok ľudia kladú, ako často používajú modely alebo ktoré témy dominujú v dátových súboroch. Menej sa však vedelo o tom, či sa rovnaký používateľ po týždňoch a mesiacoch správa inak. Práve tento rozdiel je podstatou názvu štúdie: adopcia nie je adaptácia. Používateľ môže nástroj prijať, ale jeho individuálne rutiny môžu zostať prekvapivo stabilné.

Podľa abstraktu síce dáta z Copilotu obsahujú výrazné populačné trendy, no individuálne trajektórie sú omnoho slabšie. Inak povedané, keď sa pozrieme na všetkých používateľov spolu, vidíme posuny v témach a spôsoboch používania. Keď však sledujeme konkrétneho človeka, jeho správanie je často lepkavé: opakuje podobné typy požiadaviek a nemení sa tak dramaticky, ako by naznačoval celkový obraz. Tento rozdiel môže vysvetliť, prečo sa niektoré produktové zmeny zdajú úspešné v agregovaných metrikách, ale nepremietnu sa do hlbšej zmeny práce jednotlivcov.

Štúdia tiež uvádza rozdiely medzi používateľmi s rôznou mierou aktivity. Aktívnejší používatelia môžu mať iné vzorce než tí, ktorí model používajú zriedkavo. To je prakticky dôležité, pretože pri hodnotení AI produktov sa často miešajú nadšenci, náhodní používatelia a ľudia, ktorí nástroj používajú z povinnosti v práci. Priemer potom môže zakryť, že produktová hodnota vzniká v úzkej skupine intenzívnych používateľov, zatiaľ čo väčšina ľudí zostáva pri jednoduchých, opakujúcich sa otázkach.

Pre firmy zavádzajúce AI nástroje je odkaz triezvy. Nestačí kúpiť licenciu alebo sprístupniť chatové rozhranie. Ak majú ľudia zmeniť spôsob práce, potrebujú príklady, školenie, integráciu do procesov a spätnú väzbu. Inak budú model používať najmä na úlohy, ktoré už vedia pomenovať: preformulovanie textu, jednoduché otázky, sumarizácie alebo rýchle nápady. Hlbšie využitie, napríklad plánovanie komplexných projektov alebo práca s nástrojmi, nemusí vzniknúť samo od seba.

Pre vývojárov AI produktov je rovnako dôležité, že používateľské metriky treba interpretovať opatrne. Rast počtu konverzácií alebo zmena distribúcie tém nemusí dokazovať, že jednotlivci sa učia lepšie používať model. Môže odrážať príchod nových používateľov, sezónne udalosti, zmeny v rozhraní alebo marketingové kampane. Longitudinálne analýzy, ktoré sledujú rovnakých používateľov v čase, sú preto nevyhnutné na pochopenie skutočnej adaptácie.

Výskum má význam aj pre bezpečnosť a kvalitu. Ak sú návyky stabilné, zlé návyky môžu pretrvávať: príliš všeobecné prompty, nadmerná dôvera v odpovede, nízka kontrola zdrojov alebo opakované používanie modelu na nevhodné úlohy. Naopak, dobré intervencie môžu byť cenné práve preto, že pomáhajú vytvoriť nové rutiny včas. Produktové návody, ukážkové workflowy a kontextové upozornenia môžu mať väčší efekt než pasívne očakávanie, že používateľ sa postupne naučí všetko sám.

Treba dodať, že ide o preprint a závery bude potrebné čítať spolu s metodikou, dátovými obmedzeniami a tým, ako sú definované zmeny správania. Napriek tomu je téma silná, pretože presúva pozornosť od modelových benchmarkov k ľudskej praxi. Budúcnosť LLM v práci nebude závisieť len od toho, či model vyrieši náročnejší test, ale aj od toho, či používatelia skutočne zmenia spôsob, akým rozmýšľajú, zadávajú úlohy a overujú výsledky. Táto štúdia naznačuje, že takáto zmena je pomalšia a tvrdohlavejšia, než naznačuje rýchly rast adopcie.

Zdroje

Štúdia 12-tisíc používateľov ukazuje, že návyky pri LLM sa menia pomaly

Ďalšie články k téme

Nový preprint hľadá štruktúru v pravdepodobnostných tenzoroch cez algebraické podpisy

Hugging Face a NVIDIA mapujú simuláciu ako tréningové ihrisko pre fyzickú AI

SIFT skúša podnikové triedenie dokumentov, ktoré sa učí z vlastných eskalácií na LLM