Tag

#AI bezpečnosť

Všetky publikované články, v ktorých sa téma AI bezpečnosť objavuje ako dôležitý kontext. Aktuálne 13 textov v archíve.

Novinky15. júla 2026

OpenAI presadzuje americký rámec AI bezpečnosti cez štáty aj federálnu úroveň

OpenAI opisuje „obrátený federalizmus“ ako cestu k jednotným pravidlám pre frontier modely. Pre firmy je dôležité, že laboratórium tým posúva bezpečnostnú debatu od dobrovoľných záväzkov k auditovateľným verejným povinnostiam.

Výskum2. júla 2026

Preprint skúma dohľad nad agentom, keď človek aj AI vedia niečo iné

Nový arXiv preprint formalizuje situáciu, v ktorej človek pozná svoje preferencie, no AI lepšie pozná kvalitu navrhovanej akcie. Pre dohľad nad autonómnymi agentmi je to realistickejší model než jednoduché schvaľovanie každého kroku.

Výskum9. júna 2026

NIST: matematický dôkaz podporuje priebežné opravy AI bezpečnosti

NIST upozorňuje, že konečný zoznam guardrailov nemôže byť univerzálne odolný voči protivníckym promptom. Práca Apostola Vassileva podporuje prechod k nepretržitému monitorovaniu, red teamingu a prevádzkovej odolnosti.

Novinky9. júna 2026

Cloudflare opisuje obranu proti frontier cyber modelom

Cloudflare po projekte Glasswing ukazuje vlastnú obrannú architektúru pre éru modelov schopných zrýchliť hľadanie zraniteľností a tvorbu exploitov. Zdôrazňuje včasné detekcie, WAF, API Shield, threat intelligence a Zero Trust kontajnment.

Produkty3. júna 2026

Snowflake pridáva identitu agentov, AI guardrails a ochranu dát pre podnikovú AI

Snowflake na Summite 2026 predstavil bezpečnostné funkcie pre agentickú AI: identitu agentov, ochranu pred prompt injection, sandbox pre nástroje, detekciu exfiltrácie dát a nové riadenie bezpečnostnej pozície v Trust Center.

Výskum2. júna 2026

Nový red-teaming pre medicínske LLM ukazuje, že priemer maskuje kritické zlyhania

Čerstvý arXiv preprint navrhuje viacdoménový red-teaming medicínskych veľkých jazykových modelov. Autori testovali 11 systémov na 690 klinicky motivovaných scenároch a upozorňujú, že vysoké priemerné skóre nemusí znamenať bezpečnosť v konkrétnych rizikových prípadoch.

Novinky23. mája 2026

Anthropic hlási v Project Glasswing tisíce vážnych zraniteľností nájdených pomocou Claude Mythos

Anthropic zverejnil prvú aktualizáciu Project Glasswing. Tvrdí, že približne päťdesiat partnerov s modelom Claude Mythos Preview našlo vyše desaťtisíc vysoko alebo kriticky závažných zraniteľností v dôležitom softvéri, pričom úzkym miestom už nie je hľadanie chýb, ale ich overovanie a bezpečné zverejňovanie.

Výskum22. mája 2026

Nová metrika ECUAS má hodnotiť systémy, ktoré vedia priznať neistotu

Preprint ECUAS_n navrhuje jednotnejšie hodnotenie modelov, ktoré okrem predikcie vracajú aj neistotu. Autori tvrdia, že dnešné oddelené metriky často nezachytia skutočný kompromis medzi rizikom a odmietnutím rozhodnutia.

Produkty18. mája 2026

Amazon Nova 2 skúša moderáciu obsahu bez doladenia podľa štandardu MLCommons

AWS ukazuje, že Nova 2 Lite sa dá použiť na moderáciu obsahu len cez promptovanie. Tému opiera o taxonómiu AILuminate od MLCommons a porovnanie na verejných dátach.

Novinky14. mája 2026

OpenAI učí ChatGPT čítať riziko naprieč citlivými rozhovormi, nielen v jednej správe

OpenAI opisuje nový bezpečnostný režim, v ktorom ChatGPT sleduje jemné varovné signály v priebehu citlivých konverzácií a v zriedkavých prípadoch si vytvára úzke bezpečnostné zhrnutia, aby vedel reagovať opatrnejšie pri sebapoškodzovaní a hrozbe násilia.

Novinky5. mája 2026

Americký CAISI rozširuje testovanie frontier AI s Google DeepMind, Microsoftom a xAI

NIST oznámil nové dohody centra CAISI s Google DeepMind, Microsoftom a xAI. Štát tak získava širší prístup k predbežnému aj následnému hodnoteniu najsilnejších modelov ešte pred ich nasadením aj po ňom.

Výskum1. mája 2026

Apple presúva kontrolu agentov do behu: Reinforced Agent opravuje tool-cally ešte pred spustením

Apple vo výskumnej práci Reinforced Agent navrhuje, aby druhý model kontroloval plánované volania nástrojov ešte pred ich vykonaním. Cieľom je znížiť počet chýb bez retrénovania hlavného agenta a merať prínos aj riziko takejto spätnej väzby priamo počas inferencie.