AI novinky2. mája 20264 min čítania

Britský AISI a Google DeepMind rozširujú spoločný výskum bezpečnosti AI

Britský AI Security Institute a Google DeepMind podpísali nové výskumné memorandum, ktoré posúva spoluprácu od samotného testovania frontier modelov k spoločnému výskumu monitorovania uvažovania modelov, socio-afektívneho zosúladenia a ekonomických dopadov AI.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: AI Feed

#Google DeepMind #AI regulácia #bezpečnosť AI #AISI #AI evaluácie #chain-of-thought

Britský AI Security Institute (AISI) a Google DeepMind oznámili rozšírenie svojho partnerstva cez nové výskumné memorandum, ktoré má prehĺbiť spoluprácu v bezpečnosti a spoľahlivosti pokročilých modelov. Dôležité nie je len to, že sa partneri znovu hlásia k spoločnej práci, ale hlavne to, že vzťah posúvajú z fázy testovania do fázy systematického spoločného výskumu. Pre trh je to signál, že bezpečnostné inštitúcie už nechcú byť len externým auditom po dokončení modelu, ale čoraz viac vstupujú priamo do vedeckej a evaluačnej vrstvy vývoja.

AISI na svojej stránke opisuje, že nová dohoda má vytvoriť pevnejší rámec na zdieľanie dát, nápadov a výsledkov, vrátane spoločných publikácií a priamej práce medzi tímami. Google DeepMind vo vlastnom oznámení dopĺňa, že partnerstvo má stáť na zdieľaní prístupu k proprietárnym modelom, technických diskusiách a spoločnom výskume základných bezpečnostných otázok. Inými slovami, nejde o jednorazový pilot ani o všeobecné memorandum bez obsahu. Obe strany pomerne konkrétne pomenúvajú oblasti, v ktorých chcú produkovať nové poznatky.

Prvou z nich je monitorovanie procesu uvažovania modelov, teda snaha lepšie vidieť, ako systém dospieva k odpovedi. V angličtine sa to zvykne označovať ako chain-of-thought monitorability. Táto línia je pre bezpečnosť dôležitá preto, že klasické hodnotenie výstupu často ukáže iba to, či model odpovedal správne alebo nesprávne. Oveľa ťažšie sa zachytáva, či sa k výsledku dopracoval spôsobom, ktorý je v súlade so zadaním, či neobchádza pravidlá, alebo či si nevytvára skratky, ktoré sa pri zložitejších úlohách môžu zmeniť na riziko. Ak sa podarí lepšie monitorovať vnútorné kroky uvažovania, získa priemysel silnejší nástroj na včasné odhaľovanie problémov ešte pred nasadením modelov do citlivých prostredí.

Druhou témou je socio-afektívne zosúladenie. Tento pojem znie akademicky, ale v praxi ide o veľmi konkrétny problém: model môže technicky splniť pokyn, a pritom pôsobiť spôsobom, ktorý je manipulatívny, emocionálne nevhodný alebo dlhodobo škodlivý pre používateľa. Pri rozšírení agentov, osobných asistentov a modelov vstupujúcich do zdravotníctva, vzdelávania či zákazníckej podpory je to čoraz dôležitejšia oblasť. Nestačí sledovať len faktickú správnosť odpovedí. Potrebné je merať aj to, ako model ovplyvňuje dôveru, rozhodovanie a psychickú pohodu používateľa.

Tretím pilierom partnerstva je skúmanie ekonomických dopadov AI. Google DeepMind opisuje prístup, v ktorom sa budú simulovať reálne pracovné úlohy v rôznych prostrediach a následne ich budú experti hodnotiť podľa zložitosti, reprezentatívnosti a širších dôsledkov. Takýto výskum je dôležitý z dvoch dôvodov. Po prvé, debata o dopadoch AI na trh práce sa stále často vedie skôr cez odhady a anekdoty než cez systematické meranie. Po druhé, regulátori aj firmy potrebujú lepšie vedieť, ktoré časti práce budú automatizované skôr, kde sa zvýši produktivita a kde naopak vzniknú nové bezpečnostné alebo organizačné náklady.

Z hľadiska politickej ekonomiky AI je zaujímavé, že AISI aj DeepMind hovoria o rozšírení existujúcej spolupráce, nie o začiatku od nuly. Britský inštitút bol od svojho vzniku budovaný ako miesto, kde sa stretne štátna kapacita, technická expertíza a prístup k najvýkonnejším modelom. Pre laboratóriá typu DeepMind je takýto partner užitočný, pretože umožňuje externé testovanie a spoločný výskum bez nutnosti úplne otvárať interné vývojové procesy verejnosti. Pre vládu je to zas spôsob, ako nezostať len pri písaní všeobecných pravidiel, ale budovať reálnu technickú kompetenciu okolo frontier modelov.

Na partnerstve je dôležitá aj zmena rytmu celej bezpečnostnej vrstvy v AI. Ešte nedávno bola veľká časť debaty sústredená na jednorazové safety reporty, model cards alebo všeobecné záväzky pred vydaním modelu. Teraz sa ukazuje, že s rastom schopností agentických systémov nebude stačiť kontrolovať len finálny release. Bezpečnostný výskum sa presúva bližšie k tréningu, evaluáciám a priebežnému dohľadu nad tým, ako modely uvažujú a ako sa správajú v zložitejších sociálnych situáciách. Práve preto má význam, že AISI a DeepMind pomenovali konkrétne výskumné smery namiesto neurčitých sľubov o zodpovednom vývoji.

Pre firmy, ktoré stavajú produkty nad veľkými modelmi, je praktický odkaz jasný. Bezpečnosť sa bude čoraz menej chápať ako compliance vrstva nalepená na konci projektu a čoraz viac ako schopnosť priebežne testovať, vysvetľovať a obmedzovať správanie modelu počas celého životného cyklu. To sa týka nielen veľkých laboratórií, ale aj podnikov, ktoré modely integrujú do interných agentov, copilotov či rozhodovacích workflowov. Ak sa monitorovanie uvažovania, socio-afektívne merania a ekonomické evaluácie stanú štandardom vo frontier výskume, časom sa podobné nároky prenesú aj do enterprise nasadení.

Z krátkodobého pohľadu teda nové memorandum neprináša hotový produkt ani okamžitý regulačný zásah. Prináša však niečo, čo môže byť pre ďalšiu fázu AI podstatnejšie: stabilnejší most medzi vývojom na hrane možností modelov a verejným záujmom na ich bezpečnom nasadení. Ak z tejto spolupráce vzniknú použiteľné evaluačné postupy a zverejnené výsledky, môže to ovplyvniť nielen britský ekosystém, ale aj to, ako budú podobné partnerstvá medzi štátom a laboratóriami vyzerať v Európe a mimo nej.

Zdroje

Britský AISI a Google DeepMind rozširujú spoločný výskum bezpečnosti AI

Ďalšie články k téme

OpenAI sprísňuje ochranu účtov a vypína heslá pre najrizikovejších používateľov

OpenAI zrýchľuje Stargate a tvrdí, že 10 GW AI kapacity dosiahlo skôr než plánovalo

OpenAI otvára Symphony, špecifikáciu na orchestráciu kódujúcich agentov