Výskum
Autor: Redakcia AI Feed
Nový teoretický model ukazuje, prečo majú útočníci v promptových hrách navrch
Čerstvá práca na arXive formalizuje súboj medzi útočníkom a obranou pri jailbreakoch ako hru s kompozičnými zručnosťami. Autori tvrdia, že z modelu vyplýva prirodzená výhoda útočníka a navrhujú aj optimálnu obrannú stratégiu, ktorú následne testujú na viacerých modeloch a benchmarkoch.