Forskere hos Google DeepMind har offentliggjort den første systematiske ramme, der kortlægger, hvordan ondsindet webindhold kan manipulere, kapre og udnytte autonome AI-agenter mod deres egne brugere.
Deepminds artikel »AI Agent Traps« beskriver, hvordan hackere kan udnytte AI-agenter mod brugerne

Hovedpunkter:
- ">Forskere hos Google Deepmind har identificeret 6 kategorier af AI-agentfælder, hvor succesraten for indsættelse af indhold når op på 86 %.
- ">Adfærdskontrolfælder rettet mod Microsoft M365 Copilot opnåede 10/10 dataeksfiltrering i dokumenterede tests.
- Deepmind opfordrer til modstridende træning, runtime-indholdsskannere og nye webstandarder for at sikre agenterne inden 2026.
Deepmind-artikel: AI-agenter kan kapres gennem forgiftet hukommelse og usynlige HTML-kommandoer
Artiklen med titlen "AI Agent Traps" er skrevet af Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo og Simon Osindero, som alle er tilknyttet Google Deepmind, og blev offentliggjort på SSRN i slutningen af marts 2026. Den kommer på et tidspunkt, hvor virksomhederne kappes om at implementere AI-agenter, der er i stand til at surfe på nettet, læse e-mails, udføre transaktioner og skabe underagenter uden direkte menneskelig overvågning.
Forskerne argumenterer for, at disse evner også udgør en risiko. "Ved at ændre miljøet i stedet for modellen," hedder det i artiklen, "våbeniserer fælden agentens egne evner mod den selv."
Artiklens ramme identificerer i alt seks angrebskategorier, der er organiseret efter, hvilken del af en agents drift de er rettet mod. Content Injection Traps udnytter kløften mellem det, et menneske ser på en webside, og det, en AI-agent analyserer i den underliggende HTML, CSS og metadata.
Instruktioner skjult i HTML-kommentarer, tilgængelighedstags eller tekst formateret til at være usynlig vises aldrig for menneskelige korrekturlæsere, men registreres som legitime kommandoer for agenterne. WASP-benchmarken fandt, at enkle, menneskeskrevne prompt-injektioner indlejret i webindhold delvist kaprer agenterne i op til 86 % af de testede scenarier.
Semantiske manipulationsfælder fungerer anderledes. I stedet for at injicere kommandoer mætter de teksten med framing, autoritetssignaler eller følelsesladet sprog for at forvride agentens ræsonnement. Store sprogmodeller (LLM'er) udviser de samme forankrings- og framing-biaser, der påvirker menneskelig kognition, hvilket betyder, at omformulering af identiske fakta kan producere dramatisk forskellige agentoutput.
Kognitive tilstandsfælder går endnu længere ved at forgifte de hentningsdatabaser, som agenter bruger til hukommelse. Forskning citeret i artiklen viser, at indsættelse af færre end en håndfuld optimerede dokumenter i en videnbase pålideligt kan omdirigere agenters svar på målrettede forespørgsler, hvor nogle angrebs succesrater overstiger 80 % ved mindre end 0,1 % datakontaminering.
Behavioural Control Traps springer over finesserne og sigter direkte mod en agents handlingslag. Disse omfatter indlejrede jailbreak-sekvenser, der tilsidesætter sikkerhedsindstillingerne, når de først er indlæst, kommandoer til dataeksfiltrering, der omdirigerer følsomme brugeroplysninger til angriberkontrollerede slutpunkter, samt fælder til generering af underagenter, der tvinger en overordnet agent til at instansiere kompromitterede underordnede agenter.
Artiklen dokumenterer en sag vedrørende Microsofts M365 Copilot, hvor en enkelt specialudformet e-mail fik systemet til at omgå interne klassifikatorer og lække sin fulde privilegerede kontekst til et angriberkontrolleret slutpunkt. Systemiske fælder er designet til at få hele netværk af agenter til at svigte samtidigt i stedet for individuelle systemer.
Disse omfatter overbelastningsangreb, der synkroniserer agenter til en udtømmende efterspørgsel efter begrænsede ressourcer, kaskader af indbyrdes afhængighed modelleret efter Flash Crash på aktiemarkedet i 2010 samt kompositoriske fragmentfælder, der spreder en ondsindet nyttelast over flere harmløst udseende kilder, der først rekonstrueres til et fuldt angreb, når de aggregeres.
"At så miljøet med input designet til at udløse fejl på makroniveau via korreleret agentadfærd," forklarer Google Deepmind-artiklen, bliver stadig farligere, efterhånden som AI-modeløkosystemer bliver mere homogene. Finans- og kryptosektorerne står over for direkte eksponering i betragtning af, hvor dybt algoritmiske agenter er indlejret i handelsinfrastrukturen.
Human-in-the-Loop-fælder afrunder taksonomien ved at målrette sig mod de menneskelige tilsynsførende, der overvåger agenterne, snarere end agenterne selv. En kompromitteret agent kan generere output, der er konstrueret til at fremkalde godkendelsestræthed, præsentere teknisk tunge resuméer, som en ikke-ekspert ville godkende uden nærmere undersøgelse, eller indsætte phishing-links, der ligner legitime anbefalinger. Forskerne beskriver denne kategori som uudforsket, men forventer, at den vil vokse i takt med, at hybride menneske-AI-systemer udvides.
Forskere siger, at sikring af AI-agenter kræver mere end tekniske løsninger
Artiklen behandler ikke disse seks kategorier som isolerede. Individuelle fælder kan kædes sammen, lægges i lag på tværs af flere kilder eller designes til kun at aktiveres under specifikke fremtidige betingelser. Hver eneste agent, der blev testet i forskellige red-teaming-undersøgelser, der er citeret i artiklen, blev kompromitteret mindst én gang og udførte i nogle tilfælde ulovlige eller skadelige handlinger.
OpenAI's CEO Sam Altman og andre har tidligere påpeget risiciene ved at give agenter ukontrolleret adgang til følsomme systemer, men denne artikel giver det første strukturerede overblik over, præcis hvordan disse risici materialiserer sig i praksis. Deepminds forskere opfordrer til en koordineret indsats på tværs af tre områder.
På det tekniske plan anbefaler de modstridende træning under modeludvikling, indholdsskannere under kørsel, kildfiltre før indlæsning og output-monitorer, der kan suspendere en agent midt i en opgave, hvis der opdages unormal adfærd. På økosystemniveau slår de til lyd for nye webstandarder, der gør det muligt for websteder at markere indhold beregnet til AI-forbrug, samt omdømmesystemer, der vurderer domænets pålidelighed.

Anthropic begrænser adgangen til Claude-agenten midt i en boom inden for AI-automatisering i kryptomarkedet
Anthropic afbrød den 4. april adgangen til Openclaw via Claude-abonnementet, hvilket tvang brugerne af krypto-AI-agenter til at skifte til betaling pr. brug. read more.
Læs nu
Anthropic begrænser adgangen til Claude-agenten midt i en boom inden for AI-automatisering i kryptomarkedet
Anthropic afbrød den 4. april adgangen til Openclaw via Claude-abonnementet, hvilket tvang brugerne af krypto-AI-agenter til at skifte til betaling pr. brug. read more.
Læs nu
Anthropic begrænser adgangen til Claude-agenten midt i en boom inden for AI-automatisering i kryptomarkedet
Læs nuAnthropic afbrød den 4. april adgangen til Openclaw via Claude-abonnementet, hvilket tvang brugerne af krypto-AI-agenter til at skifte til betaling pr. brug. read more.
På det juridiske plan identificerer de et ansvarsmæssigt tomrum: Når en kapret agent begår en økonomisk forbrydelse, giver de nuværende rammer ikke noget klart svar på, om ansvaret påhviler agentoperatøren, modeludbyderen eller domæneejeren. Forskerne fremhæver udfordringen med bevidst vægt:
"Internettet blev bygget til menneskelige øjne; det bliver nu genopbygget til maskinlæsere."
Efterhånden som anvendelsen af agenter tager fart, skifter spørgsmålet fra, hvilke oplysninger der findes online, til hvad AI-systemer vil blive fået til at tro om dem. Om politikere, udviklere og sikkerhedsforskere kan koordinere hurtigt nok til at besvare det spørgsmål, inden udnyttelser i den virkelige verden finder sted i stor skala, forbliver en åben variabel.














