aifeed.skAI Feed
AI novinky4 min čítania

OpenAI spúšťa Bio Bug Bounty pre GPT-5.5 a hľadá univerzálny jailbreak

OpenAI otvorilo nový bio-bezpečnostný bug bounty program pre GPT-5.5. Hľadá výskumníkov, ktorí by vedeli jedným univerzálnym promptom prelomiť päť biologických bezpečnostných otázok bez toho, aby zasiahla moderácia.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
OpenAI

OpenAI dnes spustilo nový bezpečnostný program, ktorý je na pomery frontier modelov nezvyčajne konkrétny. Pod názvom GPT-5.5 Bio Bug Bounty chce firma nájsť výskumníkov, ktorí by dokázali odhaliť univerzálny jailbreak pre biologické riziká v novom modeli GPT-5.5. Nejde teda o bežné hlásenie jednotlivých slabších odpovedí, ale o pokus nájsť jeden prenositeľný útok, ktorý by z čistého chatu bez spustenia moderácie prinútil model úspešne zodpovedať všetkých päť otázok bio-bezpečnostnej výzvy. OpenAI tým dáva najavo, že pri modeloch s väčšou agentickou schopnosťou už nestačí testovať iba izolované odpovede; dôležité je aj to, či sa dá ochranný systém obísť systematicky a opakovane.

Formát programu je zároveň pomerne úzky a tým aj zaujímavý. V scope je podľa OpenAI iba GPT-5.5 v Codex Desktop, nie všetky produkty a rozhrania firmy naraz. Z pohľadu bezpečnostného dizajnu je to logické: ak chce laboratórium merať skutočný tlak na konkrétny safety stack, potrebuje mať čo najpresnejšie definované prostredie testovania. Program preto nestavia na voľnom internete, ale na kontrolovanom prístupe pre pozvaných a vybraných účastníkov. OpenAI hovorí o výberovom procese, NDA a o tom, že do testovania chce dostať ľudí so skúsenosťou v AI red teamingu, bezpečnosti alebo biosecurity. To znižuje marketingový šum, ale zároveň ukazuje, že firma berie tento typ hodnotenia ako odbornú disciplínu, nie ako verejnú súťaž o najkreatívnejší prompt.

Samotná výzva je formulovaná ostro. Úlohou je nájsť jeden univerzálny jailbreaking prompt, ktorý bez vyvolania moderácie úspešne prejde všetkými piatimi bio-bezpečnostnými otázkami. Odmena 25-tisíc dolárov je určená pre prvý skutočne univerzálny prielom; OpenAI zároveň pripúšťa menšie odmeny za čiastočné úspechy. Dôležitý je práve pojem univerzálnosti. V bežných diskusiách o jailbreakoch sa často miešajú jednorazové triky s útokmi, ktoré sa dajú preniesť naprieč úlohami. OpenAI tu explicitne hľadá druhú kategóriu, teda prompt, ktorý nefunguje len na jeden konkrétny dotaz, ale odhaľuje hlbšiu slabinu v ochrannom mechanizme modelu alebo v jeho vrstve moderácie.

Časový rámec programu je nastavený na niekoľko mesiacov. Prihlášky sa otvárajú 23. apríla 2026 a uzatvoria sa 22. júna, samotné testovanie má bežať od 28. apríla do 27. júla. Takéto rozloženie naznačuje, že OpenAI nechce z programu jednorazový PR signál, ale iteratívny zdroj poznatkov pred širším rozširovaním modelu. To je podstatné aj v širšom kontexte release GPT-5.5: firma model uvádza ako výkonnejší systém pre dlhšie pracovné úlohy, prácu s nástrojmi a čiastočne autonómne workflow. Čím viac capability posúva smerom k reálnemu dokončovaniu práce, tým viac rastie tlak na to, aby boli preukázateľne robustné aj ochranné vrstvy pri citlivých doménach, ako je biológia alebo kyberbezpečnosť.

Význam oznámenia preto presahuje samotnú odmenu aj jednu uzavretú súťaž. OpenAI vlastne ukazuje, ako sa mení bezpečnostná metodika okolo najvýkonnejších modelov. Doteraz sa veľká časť verejnej debaty točila okolo všeobecných benchmarkov, interných systémových kariet a sporadických demonštrácií jailbreakov na sociálnych sieťach. Bio Bug Bounty je praktickejší model: presne definuje hrozbu, okruh testerov, kritérium úspechu a časové okno, počas ktorého sa majú zbierať prenositeľné zlyhania. Pre ostatné laboratóriá to môže byť tlak na to, aby podobne špecifikovali, čo vlastne považujú za kritické zlyhanie a akou cestou ho chcú hľadať pred alebo počas nasadzovania nových modelov.

Dôležité je aj to, že program je priamo previazaný so system card k GPT-5.5. V nej OpenAI tvrdí, že model prešiel cieleným testovaním pokročilých kybernetických a biologických schopností a že jeho bezpečnostné výsledky tvoria základ pre release. Bug bounty tým nepôsobí ako dodatočná oprava po probléme, ale ako pokračovanie širšieho režimu overovania. Pre podnikových zákazníkov, regulátorov aj bezpečnostnú komunitu je to dôležité rozlíšenie. Keď sa modely posúvajú z chatových odpovedí k činnostiam s vyšším dopadom, dôvera už nestojí iba na slovnom uistení, ale na tom, či laboratórium vytvára opakovateľné procesy na vyhľadávanie slabín a na ich priebežné zapracovanie do guardrailov.

Zároveň však program ukazuje aj limity dnešných bezpečnostných prístupov. Ak OpenAI cielene hľadá univerzálny jailbreak v tak citlivej oblasti, implicitne priznáva, že samotná kombinácia tréningu, moderácie a interného red teamingu ešte nevylučuje existenciu hlbších obchádzok. To neznamená, že model je automaticky nebezpečný, ale že pri frontier systémoch zostáva bezpečnosť procesom, nie stavom, ktorý možno raz navždy „splniť“. Pre používateľov je to realistickejší signál než marketingové tvrdenia o úplnej kontrole. Pre konkurenciu je to zas pripomienka, že v ére agentických modelov budú čoraz väčšou konkurenčnou výhodou nielen schopnosti, ale aj transparentne nastavené mechanizmy preverovania rizík.

Ak bude program úspešný, môže mať dopad ďaleko za hranicami jedného modelu. Univerzálne jailbreaky totiž často odhaľujú triedu slabín, nie izolovaný prompt. To je cenné pre návrh budúcich moderácií, tréningových dát, bezpečnostných filtrov aj pre hodnotenie toho, kedy je model pripravený na širšie API nasadenie. Z tohto pohľadu ide o dôležitý test toho, či sa bezpečnostná práca okolo frontier AI vie posunúť od všeobecných sľubov k presne merateľným programom. A práve to bude v najbližších mesiacoch rovnako sledovaná téma ako samotný výkon GPT-5.5.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie