AI novinky14. mája 20264 min čítania

OpenAI učí ChatGPT čítať riziko naprieč citlivými rozhovormi, nielen v jednej správe

OpenAI opisuje nový bezpečnostný režim, v ktorom ChatGPT sleduje jemné varovné signály v priebehu citlivých konverzácií a v zriedkavých prípadoch si vytvára úzke bezpečnostné zhrnutia, aby vedel reagovať opatrnejšie pri sebapoškodzovaní a hrozbe násilia.

Autor: Redakcia AI Feed

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: OpenAI

#OpenAI #AI bezpečnosť #ChatGPT #duševné zdravie #safety summaries

OpenAI zverejnilo detailnejší pohľad na to, ako chce ChatGPT lepšie rozpoznávať riziko v citlivých rozhovoroch. Kľúčová zmena nespočíva v tom, že by model reagoval prísnejšie na každú jednotlivú vetu. Firma sa skôr snaží vyriešiť praktický problém, na ktorom dnes veľa bezpečnostných mechanizmov naráža: niektoré nebezpečné situácie sa neukážu v jednej výslovnej požiadavke, ale skladajú sa z viacerých nenápadných náznakov roztrúsených v čase. Ak systém vidí len izolovanú správu, môže ju vyhodnotiť ako bežnú. Ak však chápe širší kontext, význam tej istej vety sa môže radikálne zmeniť.

OpenAI preto opisuje nové tréningové a produktové úpravy, ktoré majú modelu pomôcť rozlišovať medzi bežnými, neškodnými rozhovormi a zriedkavými, ale kriticky dôležitými prípadmi, kde sa postupne vynára riziko sebapoškodzovania, samovraždy alebo ublíženia iným. Firma zdôrazňuje, že nejde o všeobecnú personalizáciu ani o dlhodobú pamäť pre všetko, čo používateľ napíše. Nový mechanizmus je úzko vyhradený pre bezpečnostné situácie, kde môže práve historický kontext rozhodnúť o tom, či model zvolí obyčajnú odpoveď, alebo prejde do opatrnejšieho režimu s odmietnutím škodlivých detailov, deeskaláciou a odporúčaním na bezpečnejšie alternatívy.

Najdôležitejšou novinkou sú takzvané bezpečnostné zhrnutia. Ide o krátke faktické poznámky o skoršom bezpečnostne relevantnom kontexte, ktoré systém vytvára len v zriedkavých vysokorizikových prípadoch a uchováva obmedzený čas. OpenAI ich opisuje ako úzko ohraničený mechanizmus pre bezpečnostné uvažovanie, nie ako novú vrstvu všeobecnej používateľskej pamäte. Z pohľadu produktu je to dôležitý posun: veľké chatboty sa doteraz často posudzovali len podľa toho, ako odpovedia na jednu promptovaciu situáciu. Tu sa bezpečnostné rozhodovanie presúva o úroveň vyššie, na sledovanie vzorca správania naprieč viacerými výmenami alebo dokonca oddelenými konverzáciami.

OpenAI tvrdí, že model po novom lepšie zachytáva situácie, keď sa riziko vynára postupne. Ako príklad uvádza rozhovory, kde jednotlivé otázky samy osebe pôsobia nejednoznačne alebo bežne, no až v spojení s predchádzajúcimi náznakmi ukazujú na vyššie riziko. Z technického aj regulačného pohľadu je to zaujímavé najmä preto, že ide o kompromis medzi dvoma ťažko zlučiteľnými cieľmi. Na jednej strane má systém čo najmenej prehliadnuť skutočne nebezpečné situácie. Na druhej strane nesmie prehnane reagovať v stovkách miliónov bežných interakcií, kde by zbytočná opatrnosť zhoršovala používateľský zážitok a zvyšovala počet falošných poplachov.

Firma k tejto zmene pridáva aj merania. V interných hodnoteniach sa pri dlhých jednorazových rozhovoroch zvýšila úspešnosť bezpečnej odpovede o 50 percent pri scenároch samovraždy a sebapoškodzovania a o 16 percent pri scenároch ublíženia iným. Pri testoch naprieč viacerými rozhovormi OpenAI uvádza, že na modeli GPT-5.5 Instant stúpla úspešnosť bezpečnej odpovede o 52 percent v prípadoch hrozby voči iným a o 39 percent pri samovražedných a sebapoškodzujúcich scenároch. Samotné bezpečnostné zhrnutia dostali v internej sade viac ako štyritisíc hodnotení priemerné skóre bezpečnostnej relevancie 4,93 z 5 a faktickosti 4,34 z 5.

Tieto čísla treba čítať opatrne, pretože ide o interné evaly navrhnuté priamo autorom systému. Napriek tomu sú dôležité z dvoch dôvodov. Po prvé, ukazujú, že bezpečnosť v konverzačných produktoch sa čoraz viac posúva od jednorazových filtrov ku kontextovým mechanizmom, ktoré majú lepšie odhaliť postupne eskalujúce riziko. Po druhé, OpenAI zverejňuje konkrétnejší rámec, podľa ktorého sa dajú podobné tvrdenia v budúcnosti porovnávať medzi modelmi aj medzi generáciami toho istého produktu. V oblasti, kde sa bezpečnostné sľuby často končia pri všeobecných vetách o zodpovednom nasadení, je to vecnejší typ komunikácie než bývalo zvykom.

Dôležitou súčasťou príbehu je aj to, že OpenAI túto vrstvu nepredstavuje izolovane. Nový post nadväzuje na staršie úpravy odpovedí v citlivých rozhovoroch aj na funkciu Trusted Contact, cez ktorú môže dospelý používateľ dobrovoľne určiť osobu, ktorú možno upozorniť pri závažnom bezpečnostnom signáli. V širšom obraze sa tak črtá stratégia, kde bezpečnostné opatrenia nie sú len otázkou modelového odmietnutia, ale aj produktových zásahov, ľudského preskúmania a premostenia na pomoc v reálnom svete. To je podstatné najmä vtedy, keď sa AI asistenti čoraz častejšie používajú ako priestor na osobné či emočne náročné rozhovory, nie iba na technické otázky.

Praktický dopad tejto zmeny bude závisieť od rovnováhy medzi citlivosťou a presnosťou. Ak systém zachytí viac skutočne rizikových situácií bez toho, aby zhoršil bežné konverzácie, môže ísť o jeden z najzaujímavejších bezpečnostných posunov v spotrebiteľskej AI za posledné mesiace. Ak by však mechanizmus začal byť príliš opatrný alebo nejasný, môže naraziť na rovnaký problém ako mnohé iné zásahy: používateľ nebude vedieť, prečo sa odpoveď správala inak. OpenAI preto správne priznáva, že ide o dlhodobú výskumnú úlohu a že podobné techniky môže neskôr skúšať aj v ďalších vysoko rizikových oblastiach, napríklad v biológii alebo kyberbezpečnosti.

Pre trh je podstatné aj to, že sa tým mení definícia bezpečného chatbota. Nestačí už len filtrovať jednotlivé zakázané frázy. Dôležitejšie bude, či produkt rozpozná dynamiku rozhovoru, priebežné signály a zmenu významu v čase. Presne tam sa bude v najbližších kvartáloch lámať dôvera medzi výrobcami modelov, regulátormi a zákazníkmi, ktorí tieto nástroje nasadzujú v citlivých kontextoch.

Zdroje

OpenAI učí ChatGPT čítať riziko naprieč citlivými rozhovormi, nielen v jednej správe

Ďalšie články k téme

Claroty a Databricks chcú zjednotiť identitu priemyselných a nemocničných zariadení

AWS prepája Unity Catalog so SageMakerom pre auditovateľné dolaďovanie LLM

OpenAI stavia pre Codex na Windowse vlastný sandbox namiesto plného prístupu