aifeed.skAI Feed
AI produkty3 min čítania

AWS dáva agentom v Browseri prístup k systémovým oknám mimo DOM

Amazon Bedrock AgentCore Browser dostáva OS Level Actions, teda ovládanie myši, klávesnice a práce so screenshotmi aj mimo webovej vrstvy. Novinka rieši situácie, kde sa agent zastaví na natívnom dialógu alebo bezpečnostnom okne operačného systému.

Autor: Redakcia AI Feed

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
AWS

AWS pridáva do služby Amazon Bedrock AgentCore Browser novú vrstvu ovládania, ktorá posúva webových agentov za hranicu klasickej automatizácie v DOM. Funkcia OS Level Actions dáva agentom prístup k práci s plnohodnotnými screenshotmi pracovnej plochy, pohybom myši, klikmi a klávesovými skratkami aj v prípadoch, keď sa prvok vôbec nenachádza vo webovej stránke. V praxi to znamená, že agent už nemusí skončiť v momente, keď sa objaví natívne systémové okno, bezpečnostný prompt alebo dialóg na úrovni operačného systému.

Doterajšia generácia browser agentov stojí najmä na tom, čo dokáže prečítať a ovládať prehliadačová vrstva: DOM, formuláre, tlačidlá, odkazy či obsah stránky. To je silný model pre veľkú časť workflow, no má tvrdú hranicu. Systémové tlačové okno, výber certifikátu, kontextové menu, povolenie prístupu alebo natívny bezpečnostný dialóg prehliadača sa neobjavia ako HTML elementy. Playwright ani Chrome DevTools Protocol ich preto nevidia a agent, ktorý sa spolieha len na webové API, nevie pokračovať ďalej.

AWS vo svojom oznámení presne pomenúva problém, ktorý sa v produkcii objavuje častejšie než v testovacom prostredí. Mnohé firemné workflow fungujú bezchybne dovtedy, kým nenarazia na špecifickú konfiguráciu systému, lokálne povolenie, prácu so skratkou klávesnice alebo zásah natívneho UI. Práve vtedy sa ukáže rozdiel medzi agentom, ktorý vie stránku len „čítať“, a agentom, ktorý sa dokáže orientovať v celej zobrazenej relácii. OS Level Actions pridáva práve túto chýbajúcu vrstvu: agent vidí obrazovku ako celok a môže na nej konať.

To je dôležité aj pre multimodálne a vision-enabled architektúry. V poslednom roku sa rozšíril vzorec, kde agent urobí screenshot, model vizuálne vyhodnotí, kde treba kliknúť, a následne akciu vykoná automatizačný framework. Tento postup funguje pri webovom obsahu, ale láme sa vo chvíli, keď obrazovka ukáže natívne prvky, na ktoré sa cez CDP alebo DOM nedá siahnuť. AWS teraz túto medzeru uzatvára: to, čo model vidí na screenshote, môže cez InvokeBrowser API aj reálne ovládať.

Pre enterprise nasadenia je to výrazný posun. V praxi totiž agenti nenarážajú len na čisté SaaS aplikácie, ale aj na hybridné prostredia, staršie podnikové nástroje, bezpečnostné medzivrstvy a situácie, kde sa web mieša s lokálnym systémovým rozhraním. Ak chce firma automatizovať procesy ako onboarding, compliance workflow, práca s internými portálmi či administrácia vo viacerých konzolách, potrebuje agenta, ktorý sa nezastaví na prvom natívnom okne. AWS tým cieli priamo na túto triedu problémov, nie na demo automatizácie jednoduchých formulárov.

Zároveň sa tým mení aj profil rizika. Čím hlbšie agent siaha do operačného systému, tým dôležitejšie sú sandboxing, auditovateľnosť, bezpečnostné pravidlá a presne vymedzené oprávnenia. AWS AgentCore Browser už dnes predáva ako izolované prostredie pre browser-based workflow, no s OS Level Actions bude tlak na governance ešte vyšší. Firmy budú chcieť vedieť, ktoré typy akcií agent vykonal, aké screenshoty vznikli, či bol zásah autorizovaný a ako sa dá vynútiť bezpečné zastavenie, keď model zvolí nesprávny krok.

Novinka preto neznamená len „viac klikov“. V skutočnosti ide o snahu priblížiť browser agentov k plnohodnotným desktopovým operátorom bez toho, aby sa stratila spravovateľnosť cloudovej platformy. AWS tým reaguje na reálny problém agentických workflow: väčšina chýb nevzniká na pekne štruktúrovaných stránkach, ale v okrajových stavoch a mimo hlavných happy-path scenárov. Ak ich platforma nevie zvládnuť, agent zostane zaujímavý na ukážkach, no slabý v produkcii.

Pre širší trh je to ďalší signál, že súboj o agentov sa presúva z úrovne modelov k infraštruktúre a vykonávacej vrstve. Rozhodovať nebude len to, ktorý model lepšie plánuje, ale aj to, ktorá platforma mu dá spoľahlivejší prístup k reálnym podnikovým prostrediam. OS Level Actions v AgentCore Browseri sú preto menšia funkcia názvom, ale veľký posun významom: z webového asistenta sa postupne stáva agent, ktorý dokáže dokončiť úlohu aj vtedy, keď ju systém na chvíľu vytlačí mimo webu.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie