Forskare vid Google DeepMind har publicerat den första systematiska modellen som kartlägger hur skadligt webbinnehåll kan manipulera, ta kontroll över och utnyttja autonoma AI-agenter mot deras egna användare.
Deepminds artikel ”AI Agent Traps” beskriver hur hackare skulle kunna utnyttja AI-agenter mot användarna

Huvudpunkter:
- ">Forskare vid Google Deepmind har identifierat sex kategorier av AI-agentfällor, där framgångsgraden för innehållsinjektion uppgår till 86 %.
- ">Beteendekontrollfällor riktade mot Microsoft M365 Copilot uppnådde 10/10 i dataexfiltrering i dokumenterade tester.
- Deepmind efterlyser adversarial training, innehållsskannrar i runtime och nya webbstandarder för att säkra agenterna senast 2026.
Deepmind-artikel: AI-agenter kan kapas genom förgiftat minne och osynliga HTML-kommandon
Artikeln, med titeln "AI Agent Traps", författades av Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo och Simon Osindero, alla knutna till Google Deepmind, och publicerades på SSRN i slutet av mars 2026. Den kommer i en tid då företag tävlar om att implementera AI-agenter som kan surfa på webben, läsa e-post, utföra transaktioner och skapa underagenter utan direkt mänsklig övervakning.
Forskarna hävdar att dessa förmågor också utgör en risk. ”Genom att förändra miljön snarare än modellen”, står det i artikeln, ”använder fällan agentens egna förmågor som vapen mot den.”
Artikelns ramverk identifierar totalt sex attackkategorier organiserade efter vilken del av agentens verksamhet de riktar sig mot. Fällor för innehållsinjektion utnyttjar klyftan mellan vad en människa ser på en webbsida och vad en AI-agent tolkar i den underliggande HTML-koden, CSS-koden och metadatan.
Instruktioner som är dolda i HTML-kommentarer, tillgänglighetstaggar eller text som är formaterad för att vara osynlig syns aldrig för mänskliga granskare, men registreras som legitima kommandon av agenterna. WASP-benchmarktestet visade att enkla, mänskligt skrivna promptinjektioner inbäddade i webbinnehåll delvis kapar agenterna i upp till 86 % av de testade scenarierna.
Fällor för semantisk manipulation fungerar annorlunda. Istället för att injicera kommandon mättar de texten med inramning, auktoritetssignaler eller känsloladdat språk för att snedvrida hur en agent resonerar. Stora språkmodeller (LLM) uppvisar samma förankrings- och inramningsfördomar som påverkar mänsklig kognition, vilket innebär att omformulering av identiska fakta kan ge dramatiskt olika agentutdata.
Kognitiva tillståndsfällor går ännu längre genom att förgifta de hämtningsdatabaser som agenterna använder för minnet. Forskning som citeras i artikeln visar att införandet av färre än en handfull optimerade dokument i en kunskapsbas på ett tillförlitligt sätt kan omdirigera agenternas svar på riktade frågor, med vissa attackers framgångsgrad överstigande 80 % vid mindre än 0,1 % datakontaminering.
Behavioural Control Traps hoppar över subtiliteten och riktar sig direkt mot agentens handlingslager. Dessa inkluderar inbäddade jailbreak-sekvenser som åsidosätter säkerhetsjusteringen när de väl har tagits in, kommandon för dataexfiltrering som omdirigerar känslig användarinformation till angriparkontrollerade slutpunkter, och fällor för att skapa underagenter som tvingar en överordnad agent att instansiera komprometterade underordnade agenter.
Artikeln dokumenterar ett fall som involverar Microsofts M365 Copilot där ett enda specialkonstruerat e-postmeddelande fick systemet att kringgå interna klassificerare och läcka hela sitt privilegierade sammanhang till en angriparkontrollerad slutpunkt. Systemiska fällor är utformade för att få hela nätverk av agenter att fallera samtidigt snarare än enskilda system.
Dessa inkluderar överbelastningsattacker som synkroniserar agenter till en uttömmande efterfrågan på begränsade resurser, kaskader av ömsesidigt beroende som är modellerade efter börskraschen 2010, och kompositionella fragmentfällor som sprider en skadlig nyttolast över flera oskyldigt utseende källor som återbildar en fullständig attack endast när de aggregeras.
”Att förse miljön med indata utformade för att utlösa fel på makronivå via korrelerat agentbeteende”, förklarar Google Deepmind-artikeln, blir allt farligare i takt med att AI-modellernas ekosystem blir mer homogena. Finans- och kryptosektorerna står inför direkt exponering med tanke på hur djupt algoritmiska agenter är inbäddade i handelsinfrastrukturen.
Human-in-the-Loop-fällor kompletterar taxonomin genom att rikta in sig på de mänskliga övervakarna som håller uppsikt över agenterna snarare än på agenterna själva. En komprometterad agent kan generera utdata som är utformade för att framkalla godkännandetrötthet, presentera tekniskt tunga sammanfattningar som en icke-expert skulle godkänna utan granskning, eller infoga phishing-länkar som ser ut som legitima rekommendationer. Forskarna beskriver denna kategori som underutforskad men förväntar sig att den kommer att växa i takt med att hybridsystem mellan människa och AI skalar upp.
Forskare säger att det krävs mer än tekniska åtgärder för att säkra AI-agenter
Artikeln behandlar inte dessa sex kategorier som isolerade. Enskilda fällor kan kedjas ihop, läggas i lager över flera källor eller utformas för att aktiveras endast under specifika framtida förhållanden. Varje agent som testades i olika red-teaming-studier som citeras i artikeln komprometterades minst en gång, och i vissa fall utförde de olagliga eller skadliga handlingar.
OpenAI:s VD Sam Altman och andra har tidigare flaggat för riskerna med att ge agenter okontrollerad tillgång till känsliga system, men denna artikel ger den första strukturerade kartan över exakt hur dessa risker materialiseras i praktiken. Deepminds forskare efterlyser en samordnad insats som spänner över tre områden.
På den tekniska sidan rekommenderar de adversarial training under modellutveckling, innehållsskannrar under körning, källfilter före inmatning och utgångsmonitorer som kan avbryta en agent mitt i en uppgift om avvikande beteende upptäcks. På ekosystemnivå förespråkar de nya webbstandarder som skulle göra det möjligt för webbplatser att flagga innehåll avsett för AI-konsumtion samt reputationssystem som betygsätter domäners tillförlitlighet.

Anthropic begränsar åtkomsten till agenten Claude mitt i AI-automatiseringsboomen inom kryptovalutor
Anthropic avslutade den 4 april prenumerationsåtkomsten till Openclaw för Claude, vilket innebar att användare av kryptovalutabaserade AI-agenter nu måste betala per användning. read more.
Läs nu
Anthropic begränsar åtkomsten till agenten Claude mitt i AI-automatiseringsboomen inom kryptovalutor
Anthropic avslutade den 4 april prenumerationsåtkomsten till Openclaw för Claude, vilket innebar att användare av kryptovalutabaserade AI-agenter nu måste betala per användning. read more.
Läs nu
Anthropic begränsar åtkomsten till agenten Claude mitt i AI-automatiseringsboomen inom kryptovalutor
Läs nuAnthropic avslutade den 4 april prenumerationsåtkomsten till Openclaw för Claude, vilket innebar att användare av kryptovalutabaserade AI-agenter nu måste betala per användning. read more.
På den juridiska sidan identifierar de en lucka i ansvarsskyldigheten: när en kapad agent begår ett ekonomiskt brott ger de nuvarande ramverken inget tydligt svar på om ansvaret faller på agentoperatören, modellleverantören eller domänägaren. Forskarna formulerar utmaningen med avsiktlig tyngd:
"Webben byggdes för mänskliga ögon; nu byggs den om för maskinläsare."
I takt med att användningen av agenter ökar skiftar frågan från vilken information som finns online till vad AI-systemen kommer att fås att tro om den. Om beslutsfattare, utvecklare och säkerhetsforskare kan samordna sig tillräckligt snabbt för att besvara den frågan innan exploateringar i verkligheten uppstår i stor skala förblir en öppen variabel.














