Google Deepmind-forskere har publisert det første systematiske rammeverket som katalogiserer hvordan ondsinnet nettinnhold kan manipulere, kapre og bevæpne autonome KI-agenter mot deres egne brukere.
Deepminds «AI-agentfeller»-artikkel kartlegger hvordan hackere kan bevæpne AI-agenter mot brukere

Viktige punkter:
- Google Deepmind-forskere identifiserte 6 kategorier av KI-agentfeller, med suksessrater for innholdsinjeksjon på opptil 86%.
- Atferdskontrollfeller rettet mot Microsoft M365 Copilot oppnådde 10/10 dataeksfiltrering i dokumenterte tester.
- Deepmind etterlyser adversarial trening, innholdsskannere i kjøretid og nye nettstandarder for å sikre agenter innen 2026.
Deepmind-artikkel: KI-agenter kan kapres gjennom forgiftet minne, usynlige HTML-kommandoer
Artikkelen, med tittelen «AI Agent Traps», ble forfattet av Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo og Simon Osindero, alle tilknyttet Google Deepmind, og lagt ut på SSRN i slutten av mars 2026. Den kommer samtidig som selskaper kappes om å ta i bruk KI-agenter som kan surfe på nettet, lese e-post, gjennomføre transaksjoner og opprette underagenter uten direkte menneskelig tilsyn.
Forskerne hevder at disse evnene også er en sårbarhet. «Ved å endre miljøet snarere enn modellen», heter det i artikkelen, «bevæpner fellen agentens egne evner mot den.»
Artikkelens rammeverk identifiserer totalt seks angrepskategorier organisert etter hvilken del av en agents drift de retter seg mot. Innholdsinjeksjonsfeller utnytter gapet mellom det et menneske ser på en nettside og det en KI-agent tolker i underliggende HTML, CSS og metadata.
Instruksjoner skjult i HTML-kommentarer, tilgjengelighets-tagger eller stilert-usynlig tekst vises aldri for menneskelige gjennomgåere, men registreres som legitime kommandoer for agenter. WASP-benchmarken fant at enkle, menneskeskrevne prompt-injeksjoner innebygd i nettinnhold delvis kaprer agenter i opptil 86% av de testede scenarioene.
Semantiske manipulasjonsfeller fungerer annerledes. I stedet for å injisere kommandoer, metter de teksten med innramming, autoritetssignaler eller følelsesladet språk for å påvirke hvordan en agent resonnerer. Store språkmodeller (LLM-er) viser de samme forankrings- og innrammingsskjevhetene som påvirker menneskelig kognisjon, noe som betyr at omformulering av identiske fakta kan gi dramatisk ulike agentutdata.
Kognitive tilstandsfeller går enda lenger ved å forgifte gjenfinningsdatabasene agenter bruker som minne. Forskning sitert i artikkelen viser at injeksjon av færre enn en håndfull optimaliserte dokumenter i en kunnskapsbase pålitelig kan omdirigere agentresponser for målrettede spørringer, med enkelte angrepssuksessrater over 80% ved mindre enn 0,1% datakontaminering.
Atferdskontrollfeller hopper over subtiliteten og retter seg direkte mot agentens handlingslag. Disse inkluderer innebygde jailbreak-sekvenser som overstyrer sikkerhetsjustering når de først er tatt inn, dataeksfiltreringskommandoer som omdirigerer sensitiv brukerinformasjon til endepunkter kontrollert av angriperen, og underagent-oppstartsfeller som tvinger en overordnet agent til å instansiere kompromitterte barneagenter.
Artikkelen dokumenterer en sak som involverer Microsofts M365 Copilot, der én enkelt utformet e-post fikk systemet til å omgå interne klassifikatorer og lekke hele sin privilegerte kontekst til et endepunkt kontrollert av angriperen. Systemiske feller er utformet for å få hele nettverk av agenter til å feile samtidig, snarere enn enkeltstående systemer.
Disse inkluderer overbelastningsangrep som synkroniserer agenter i uttømmende etterspørsel etter begrensede ressurser, avhengighetskaskader modellert etter børskrakket «Flash Crash» i 2010, og komposisjonelle fragmentfeller som sprer en ondsinnet nyttelast på tvers av flere tilsynelatende ufarlige kilder, som først rekonstitueres til et fullt angrep når de aggregeres.
«Å så miljøet med input som er utformet for å utløse feil på makronivå via korrelert agentatferd», forklarer Google Deepmind-artikkelen, blir stadig farligere etter hvert som økosystemene for KI-modeller blir mer homogene. Finans- og kryptosektorene står overfor direkte eksponering gitt hvor dypt algoritmiske agenter er innbakt i handelsinfrastruktur.
Menneske-i-løkken-feller avrunder taksonomien ved å rette seg mot de menneskelige tilsynspersonene som overvåker agenter, snarere enn agentene selv. En kompromittert agent kan generere utdata konstruert for å fremkalle godkjenningstretthet, presentere teknisk tette sammendrag som en ikke-ekspert vil autorisere uten grundig kontroll, eller sette inn phishing-lenker som ser ut som legitime anbefalinger. Forskerne beskriver denne kategorien som lite utforsket, men forventet å vokse etter hvert som hybride menneske-KI-systemer skalerer.
Forskere sier at sikring av KI-agenter krever mer enn tekniske løsninger
Artikkelen behandler ikke disse seks kategoriene som isolerte. Enkeltfeller kan kjedes sammen, legges i lag på tvers av flere kilder, eller utformes for å aktiveres først under bestemte framtidige forhold. Hver agent som ble testet i ulike red-teaming-studier sitert i artikkelen, ble kompromittert minst én gang, i noen tilfeller ved å utføre ulovlige eller skadelige handlinger.
OpenAI-sjef Sam Altman og andre har tidligere påpekt risikoen ved å gi agenter ukontrollert tilgang til sensitive systemer, men denne artikkelen gir det første strukturerte kartet over nøyaktig hvordan disse risikoene materialiserer seg i praksis. Deepmind-forskerne etterlyser en koordinert respons som spenner over tre områder.
På den tekniske siden anbefaler de adversarial trening under modellutvikling, innholdsskannere i kjøretid, kildefiltre før innmating, og utdataovervåkere som kan stoppe en agent midt i en oppgave dersom avvikende atferd oppdages. På økosystemnivå argumenterer de for nye nettstandarder som vil gjøre det mulig for nettsteder å flagge innhold ment for KI-konsum, samt omdømmesystemer som scorer domenepålitelighet.

Anthropic begrenser tilgangen til Claude Agent midt i AI-automatiseringsboomen i krypto
Anthropic kuttet Claude-abonnementstilgangen for Openclaw 4. april, og presset brukere av krypto-AI-agenter over til betaling etter forbruk. read more.
Les nå
Anthropic begrenser tilgangen til Claude Agent midt i AI-automatiseringsboomen i krypto
Anthropic kuttet Claude-abonnementstilgangen for Openclaw 4. april, og presset brukere av krypto-AI-agenter over til betaling etter forbruk. read more.
Les nå
Anthropic begrenser tilgangen til Claude Agent midt i AI-automatiseringsboomen i krypto
Les nåAnthropic kuttet Claude-abonnementstilgangen for Openclaw 4. april, og presset brukere av krypto-AI-agenter over til betaling etter forbruk. read more.
På den juridiske siden identifiserer de et ansvarsgap: når en kapret agent begår en finansforbrytelse, gir dagens rammeverk ingen klar løsning på om ansvaret ligger hos operatøren av agenten, modelltilbyderen eller domeneeieren. Forskerne rammer inn utfordringen med bevisst tyngde:
«Nettet ble bygget for menneskelige øyne; det blir nå bygget om for maskinlesere.»
Etter hvert som agentadopsjonen akselererer, flytter spørsmålet seg fra hvilken informasjon som finnes på nett til hva KI-systemer vil bli gjort til å tro om den. Om beslutningstakere, utviklere og sikkerhetsforskere klarer å koordinere raskt nok til å besvare det spørsmålet før virkelige utnyttelser kommer i stor skala, gjenstår som den åpne variabelen.














