Aangedreven door
News

Het artikel 'AI Agent Traps' van DeepMind beschrijft hoe hackers AI-agenten tegen gebruikers zouden kunnen inzetten

Onderzoekers van Google DeepMind hebben het eerste systematische raamwerk gepubliceerd waarin wordt beschreven hoe schadelijke webcontent autonome AI-agenten kan manipuleren, kapen en inzetten als wapen tegen hun eigen gebruikers.

GESCHREVEN DOOR
DELEN
Het artikel 'AI Agent Traps' van DeepMind beschrijft hoe hackers AI-agenten tegen gebruikers zouden kunnen inzetten

Belangrijkste conclusies:

  • ">Onderzoekers van Google DeepMind hebben zes categorieën van AI-agentvallen geïdentificeerd, waarbij het succespercentage van het injecteren van inhoud 86% bedroeg.
  • ">Valstrikken voor gedragscontrole gericht op Microsoft M365 Copilot bereikten in gedocumenteerde tests een score van 10/10 voor het exfiltreren van gegevens.
  • DeepMind pleit voor adversarial training, runtime-inhoudsscanners en nieuwe webstandaarden om agents tegen 2026 te beveiligen.

Deepmind-paper: AI-agenten kunnen worden gekaapt via vergiftigd geheugen en onzichtbare HTML-commando's

Het artikel, getiteld "AI Agent Traps", is geschreven door Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo en Simon Osindero, allen verbonden aan Google Deepmind, en eind maart 2026 op SSRN geplaatst. Het verschijnt op een moment dat bedrijven in een race verwikkeld zijn om AI-agenten in te zetten die in staat zijn om op het web te surfen, e-mails te lezen, transacties uit te voeren en subagenten te genereren zonder direct menselijk toezicht.

De onderzoekers stellen dat deze mogelijkheden ook een risico vormen. "Door de omgeving te veranderen in plaats van het model," zo stelt het artikel, "zet de val de eigen mogelijkheden van de agent tegen hem in."

Het raamwerk van het artikel identificeert in totaal zes categorieën van aanvallen, ingedeeld naar welk deel van de werking van een agent ze zich richten. Content Injection Traps maken gebruik van de kloof tussen wat een mens op een webpagina ziet en wat een AI-agent ontleest in de onderliggende HTML, CSS en metadata.

Instructies die verborgen zijn in HTML-opmerkingen, toegankelijkheidstags of onzichtbaar opgemaakte tekst, verschijnen nooit voor menselijke beoordelaars, maar worden door agenten geregistreerd als legitieme commando's. De WASP-benchmark toonde aan dat eenvoudige, door mensen geschreven prompt-injecties die in webcontent zijn ingebed, agenten in tot wel 86% van de geteste scenario's gedeeltelijk kapen.

Semantische manipulatievalstrikken werken anders. In plaats van commando's te injecteren, verzadigen ze tekst met framing, autoriteitssignalen of emotioneel geladen taal om de redenering van een agent te beïnvloeden. Grote taalmodellen (LLM's) vertonen dezelfde verankering- en framingvooroordelen die de menselijke cognitie beïnvloeden, wat betekent dat het herformuleren van identieke feiten dramatisch verschillende agentuitkomsten kan opleveren.

Cognitieve-toestand-vallen gaan nog verder door de opvraagdatabases te vergiftigen die agents gebruiken voor hun geheugen. Onderzoek dat in het artikel wordt aangehaald, toont aan dat het injecteren van minder dan een handvol geoptimaliseerde documenten in een kennisbank de reacties van agents op gerichte zoekopdrachten betrouwbaar kan omleiden, waarbij sommige aanvalssuccespercentages meer dan 80% bedragen bij minder dan 0,1% gegevensvervuiling.

Behavioural Control Traps slaan de subtiliteit over en richten zich direct op de actielaag van een agent. Deze omvatten ingebedde jailbreak-sequenties die de veiligheidsafstemming overschrijven zodra ze zijn opgenomen, commando's voor gegevensuitlekken die gevoelige gebruikersinformatie omleiden naar door de aanvaller gecontroleerde eindpunten, en valstrikken voor het spawnen van subagenten die een bovenliggende agent dwingen om gecompromitteerde onderliggende agenten te instantiëren.

Het artikel documenteert een geval met Microsofts M365 Copilot, waarbij één enkele speciaal vervaardigde e-mail ervoor zorgde dat het systeem interne classifiers omzeilde en zijn volledige geprivilegieerde context lekte naar een door de aanvaller gecontroleerd eindpunt. Systemische vallen zijn ontworpen om hele netwerken van agents tegelijkertijd te laten falen in plaats van individuele systemen.

Deze omvatten congestieaanvallen die agents synchroniseren tot een uitputtende vraag naar beperkte middelen, onderlinge afhankelijkheidscascades gemodelleerd naar de Flash Crash op de aandelenmarkt in 2010, en compositorische fragmentvallen die een kwaadaardige payload verspreiden over meerdere onschuldig ogende bronnen die pas bij samenvoeging een volledige aanval vormen.

"Het zaaien van de omgeving met inputs die zijn ontworpen om storingen op macroniveau te veroorzaken via gecorreleerd agentgedrag", legt het Google Deepmind-artikel uit, wordt steeds gevaarlijker naarmate AI-modelecosystemen homogener worden. De financiële en cryptosectoren lopen direct risico, gezien de mate waarin algoritmische agenten zijn ingebed in de handelsinfrastructuur.

Human-in-the-Loop-vallen maken de taxonomie compleet door zich te richten op de menselijke supervisors die toezicht houden op agenten in plaats van op de agenten zelf. Een gecompromitteerde agent kan outputs genereren die zijn ontworpen om goedkeuringsmoeheid te veroorzaken, technisch complexe samenvattingen presenteren die een niet-expert zonder nadere controle zou goedkeuren, of phishing-links invoegen die eruitzien als legitieme aanbevelingen. De onderzoekers beschrijven deze categorie als onderbelicht, maar verwachten dat deze zal groeien naarmate hybride mens-AI-systemen opschalen.

Onderzoekers zeggen dat het beveiligen van AI-agenten meer vereist dan technische oplossingen

Het artikel behandelt deze zes categorieën niet als op zichzelf staand. Afzonderlijke vallen kunnen aan elkaar worden gekoppeld, over meerdere bronnen worden gelaagd of zo worden ontworpen dat ze alleen onder specifieke toekomstige omstandigheden worden geactiveerd. Elke agent die in de verschillende red-teaming-studies die in het artikel worden aangehaald, werd getest, werd minstens één keer gecompromitteerd en voerde in sommige gevallen illegale of schadelijke acties uit.

Sam Altman, CEO van OpenAI, en anderen hebben eerder gewezen op de risico's van het verlenen van ongecontroleerde toegang tot gevoelige systemen aan agents, maar dit artikel biedt het eerste gestructureerde overzicht van hoe die risico's zich in de praktijk precies manifesteren. De onderzoekers van DeepMind pleiten voor een gecoördineerde aanpak op drie gebieden.

Op technisch vlak bevelen ze adversarial training aan tijdens de modelontwikkeling, content-scanners tijdens de runtime, bronfilters vóór de opname en outputmonitors die een agent halverwege een taak kunnen opschorten als afwijkend gedrag wordt gedetecteerd. Op ecosysteemniveau pleiten ze voor nieuwe webstandaarden waarmee websites content kunnen markeren die bedoeld is voor AI-gebruik, en voor reputatiesystemen die de betrouwbaarheid van domeinen beoordelen.

Anthropic beperkt de toegang tot de Claude-agent te midden van de opkomst van AI-automatisering in de cryptowereld

Anthropic beperkt de toegang tot de Claude-agent te midden van de opkomst van AI-automatisering in de cryptowereld

Anthropic heeft op 4 april de abonnementstoegang voor Openclaw stopgezet, waardoor gebruikers van crypto-AI-agenten nu moeten overschakelen op een pay-as-you-go-factureringsmodel. read more.

Lees nu

Op juridisch vlak signaleren ze een lacune in de aansprakelijkheid: wanneer een gekaapte agent een financiële misdaad begaat, bieden de huidige kaders geen duidelijk antwoord op de vraag of de aansprakelijkheid bij de agentbeheerder, de modelprovider of de domeineigenaar ligt. De onderzoekers benadrukken het belang van deze uitdaging:

"Het web is gebouwd voor menselijke ogen; het wordt nu opnieuw gebouwd voor machinale lezers."

Naarmate de acceptatie van agents toeneemt, verschuift de vraag van welke informatie er online bestaat naar wat AI-systemen erover zullen worden ingeprent. Of beleidsmakers, ontwikkelaars en beveiligingsonderzoekers snel genoeg kunnen samenwerken om die vraag te beantwoorden voordat er op grote schaal misbruik in de praktijk plaatsvindt, blijft de grote onbekende.