Výzkumníci z Google DeepMind zveřejnili první systematický rámec, který popisuje, jak může škodlivý webový obsah manipulovat s autonomními agenty umělé inteligence, převzít nad nimi kontrolu a zneužít je proti jejich vlastním uživatelům.
Článek společnosti Deepmind s názvem „AI Agent Traps“ popisuje, jak by hackeři mohli zneužít agenty umělé inteligence proti uživatelům

Hlavní body:
- ">Výzkumníci společnosti Google Deepmind identifikovali 6 kategorií pastí pro agenty umělé inteligence, přičemž úspěšnost vkládání obsahu dosáhla 86 %.
- ">Pasti zaměřené na ovládání chování, které cílily na Microsoft M365 Copilot, dosáhly v dokumentovaných testech 100% úspěšnosti při exfiltraci dat.
- Deepmind vyzývá k adversariálnímu tréninku, skenerům obsahu v reálném čase a novým webovým standardům, aby byli agenti do roku 2026 zabezpečeni.
Článek Deepmind: Agenty AI lze unést pomocí otrávené paměti a neviditelných HTML příkazů
Článek s názvem „AI Agent Traps“ (Pasti pro agenty AI) napsali Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo a Simon Osindero, všichni z Google Deepmind, a byl zveřejněn na SSRN koncem března 2026. Vychází v době, kdy společnosti soupeří o nasazení agentů AI schopných procházet web, číst e-maily, provádět transakce a vytvářet podagenty bez přímého lidského dohledu.
Výzkumníci tvrdí, že tyto schopnosti představují také riziko. „Změnou prostředí namísto modelu,“ uvádí článek, „pasti obrací vlastní schopnosti agenta proti němu.“
Rámec článku identifikuje celkem šest kategorií útoků, které se zaměřují na různé části fungování agenta. Pasti typu Content Injection Traps využívají rozpor mezi tím, co člověk vidí na webové stránce, a tím, co agent AI analyzuje v podkladovém HTML, CSS a metadatech.
Pokyny skryté v HTML komentářích, značkách přístupnosti nebo stylově neviditelném textu se lidským recenzentům nikdy nezobrazí, ale pro agenty se jeví jako legitimní příkazy. Benchmark WASP zjistil, že jednoduché, lidmi napsané injekce příkazů vložené do webového obsahu částečně unesou agenty až v 86 % testovaných scénářů.
Pasti sémantické manipulace fungují jinak. Namísto vkládání příkazů nasycují text rámováním, signály autority nebo emocionálně nabitým jazykem, aby zkreslily uvažování agenta. Velké jazykové modely (LLM) vykazují stejné zkreslení ukotvení a rámování, které ovlivňují lidské vnímání, což znamená, že přeformulování identických faktů může vést k dramaticky odlišným výstupům agentů.
Pasti kognitivního stavu jdou ještě dál tím, že otravují vyhledávací databáze, které agenti používají jako paměť. Výzkum citovaný v článku ukazuje, že vložení méně než hrstky optimalizovaných dokumentů do znalostní báze může spolehlivě přesměrovat odpovědi agentů na cílené dotazy, přičemž některé úspěšnosti útoků přesahují 80 % při kontaminaci dat nižší než 0,1 %.
Behaviorální kontrolní pasti obcházejí jemné nuance a míří přímo na akční vrstvu agenta. Patří mezi ně vložené sekvence pro únik z vězení, které po načtení přepisují bezpečnostní nastavení, příkazy k exfiltraci dat, které přesměrovávají citlivé informace o uživateli na koncové body ovládané útočníkem, a pasti na vytváření podřízených agentů, které donutí nadřazeného agenta instancovat kompromitované podřízené agenty.
Článek dokumentuje případ týkající se Microsoftu M365 Copilot, kde jediný upravený e-mail způsobil, že systém obešel interní klasifikátory a vyzradil svůj plný privilegovaný kontext do koncového bodu ovládaného útočníkem. Systémové pasti jsou navrženy tak, aby způsobily selhání celých sítí agentů současně, spíše než jednotlivých systémů.
Patří mezi ně útoky na přetížení, které synchronizují agenty do vyčerpávající poptávky po omezených zdrojích, kaskády vzájemné závislosti modelované podle burzovního „flash crash“ z roku 2010 a kompoziční fragmentační pasti, které rozptýlí škodlivý náklad napříč několika nevinně vypadajícími zdroji, které se spojí do plnohodnotného útoku pouze při agregaci.
„Zasévání prostředí vstupy navrženými tak, aby vyvolaly selhání na makroúrovni prostřednictvím korelovaného chování agentů,“ vysvětluje dokument Google Deepmind, se stává stále nebezpečnějším, jak se ekosystémy modelů AI stávají homogennějšími. Finanční a kryptoměnový sektor čelí přímému ohrožení vzhledem k tomu, jak hluboce jsou algoritmičtí agenti zakotveni v obchodní infrastruktuře.
Pasti typu „human-in-the-loop“ doplňují taxonomii tím, že se zaměřují spíše na lidské supervizory dohlížející na agenty než na samotné agenty. Kompromitovaný agent může generovat výstupy navržené tak, aby vyvolaly únavu z schvalování, prezentovat technicky náročné souhrny, které by laik schválil bez důkladného prozkoumání, nebo vkládat phishingové odkazy, které vypadají jako legitimní doporučení. Výzkumníci popisují tuto kategorii jako nedostatečně prozkoumanou, ale očekávají, že s rozšiřováním hybridních systémů člověk-AI poroste.
Výzkumníci tvrdí, že zabezpečení agentů AI vyžaduje více než jen technická řešení
Článek nepojednává o těchto šesti kategoriích jako o izolovaných. Jednotlivé pasti mohou být řetězeny, vrstveny napříč více zdroji nebo navrženy tak, aby se aktivovaly pouze za specifických budoucích podmínek. Každý agent testovaný v různých studiích red-teamingových testů citovaných v článku byl alespoň jednou kompromitován, v některých případech provedl nelegální nebo škodlivé akce.
Generální ředitel OpenAI Sam Altman a další již dříve upozornili na rizika spojená s poskytnutím nekontrolovaného přístupu agentům k citlivým systémům, ale tato studie poskytuje první strukturovaný přehled toho, jak se tato rizika v praxi konkrétně projevují. Výzkumníci společnosti Deepmind volají po koordinované reakci zahrnující tři oblasti.
Z technického hlediska doporučují adversarial training během vývoje modelu, skenery obsahu v běhu, filtry zdrojů před načtením a monitory výstupů, které mohou agenta pozastavit uprostřed úkolu, pokud je detekováno anomální chování. Na úrovni ekosystému prosazují nové webové standardy, které by webovým stránkám umožnily označovat obsah určený pro spotřebu AI, a reputační systémy, které hodnotí spolehlivost domén.

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru
Společnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.
Přečíst
Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru
Společnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.
Přečíst
Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru
PřečístSpolečnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.
Z právního hlediska identifikují mezeru v odpovědnosti: když agent, který byl napaden, spáchá finanční trestný čin, současné rámcové podmínky nenabízejí jasnou odpověď na to, zda odpovědnost nese provozovatel agenta, poskytovatel modelu nebo vlastník domény. Výzkumníci formulují tuto výzvu s důrazem:
„Web byl vytvořen pro lidské oči; nyní je přestavován pro strojové čtenáře.“
S rostoucí popularitou agentů se otázka posouvá od toho, jaké informace existují online, k tomu, co si o nich budou systémy umělé inteligence myslet. Zda se tvůrci politik, vývojáři a bezpečnostní výzkumníci dokážou koordinovat dostatečně rychle, aby na tuto otázku odpověděli dříve, než se ve velkém měřítku objeví reálné zneužití, zůstává otevřenou otázkou.














