I ricercatori di Google DeepMind hanno pubblicato il primo quadro sistematico che descrive come i contenuti web dannosi possano manipolare, dirottare e strumentalizzare agenti di IA autonomi contro i propri utenti. Punti chiave:
Il documento di Deepmind intitolato «AI Agent Traps» illustra come gli hacker potrebbero sfruttare gli agenti di IA contro gli utenti

- ">I ricercatori di Google Deepmind hanno identificato 6 categorie di trappole per agenti IA, con tassi di successo nell'iniezione di contenuti che raggiungono l'86%.
- ">Le trappole di controllo comportamentale mirate a Microsoft M365 Copilot hanno raggiunto un tasso di esfiltrazione dei dati pari a 10/10 nei test documentati.
- Deepmind richiede un addestramento avversario, scanner di contenuti in fase di esecuzione e nuovi standard web per proteggere gli agenti entro il 2026.
Documento Deepmind: Gli agenti IA possono essere dirottati tramite memoria avvelenata e comandi HTML invisibili
Il documento, intitolato "AI Agent Traps", è stato redatto da Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo e Simon Osindero, tutti affiliati a Google Deepmind, e pubblicato su SSRN alla fine di marzo 2026. Esso arriva in un momento in cui le aziende fanno a gara per implementare agenti di IA in grado di navigare sul web, leggere e-mail, eseguire transazioni e generare sotto-agenti senza supervisione umana diretta.
I ricercatori sostengono che tali capacità rappresentino anche un rischio. "Modificando l'ambiente anziché il modello", afferma l'articolo, "la trappola trasforma le stesse capacità dell'agente in un'arma contro di esso." Il quadro di riferimento dell'articolo identifica un totale di sei categorie di attacchi, organizzate in base alla parte dell'operatività dell'agente che prendono di mira. Le trappole di iniezione di contenuti sfruttano il divario tra ciò che un essere umano vede su una pagina web e ciò che un agente di IA analizza nell'HTML, nei CSS e nei metadati sottostanti. Le istruzioni nascoste nei commenti HTML, nei tag di accessibilità o nel testo reso invisibile tramite styling non appaiono mai ai revisori umani, ma vengono registrate come comandi legittimi dagli agenti. Il benchmark WASP ha rilevato che semplici iniezioni di prompt scritti da esseri umani e incorporati nei contenuti web dirottano parzialmente gli agenti in fino all'86% degli scenari testati.
Le trappole di manipolazione semantica funzionano in modo diverso. Anziché iniettare comandi, saturano il testo con framing, segnali di autorità o linguaggio carico di emotività per distorcere il ragionamento di un agente. I modelli linguistici di grandi dimensioni (LLM) mostrano gli stessi pregiudizi di ancoraggio e framing che influenzano la cognizione umana, il che significa che riformulare fatti identici può produrre output degli agenti drasticamente diversi.
Le trappole dello stato cognitivo vanno oltre, avvelenando i database di recupero che gli agenti utilizzano per la memoria. La ricerca citata nell'articolo mostra che l'iniezione di meno di una manciata di documenti ottimizzati in una base di conoscenza può reindirizzare in modo affidabile le risposte degli agenti per query mirate, con alcuni tassi di successo degli attacchi che superano l'80% a meno dello 0,1% di contaminazione dei dati.
Le trappole di controllo comportamentale saltano le sottigliezze e mirano direttamente al livello di azione di un agente. Queste includono sequenze di jailbreak incorporate che sovrascrivono l'allineamento di sicurezza una volta inserite, comandi di esfiltrazione dei dati che reindirizzano le informazioni sensibili dell'utente verso endpoint controllati dall'autore dell'attacco e trappole di generazione di sub-agenti che costringono un agente genitore a istanziare agenti figli compromessi.
Il documento descrive un caso che coinvolge M365 Copilot di Microsoft, in cui una singola e-mail appositamente creata ha indotto il sistema a bypassare i classificatori interni e a divulgare il suo intero contesto privilegiato a un endpoint controllato dall'autore dell'attacco. Le trappole sistemiche sono progettate per mettere fuori uso intere reti di agenti contemporaneamente, piuttosto che singoli sistemi.
Queste includono attacchi di congestione che sincronizzano gli agenti in una richiesta esaustiva di risorse limitate, cascate di interdipendenza modellate sul Flash Crash del mercato azionario del 2010 e trappole di frammentazione compositiva che disperdono un payload dannoso su più fonti dall'aspetto innocuo che si ricostituiscono in un attacco completo solo quando aggregate.
"Inserire nell'ambiente input progettati per innescare guasti a livello macro tramite comportamenti correlati degli agenti", spiega il documento di Google Deepmind, diventa sempre più pericoloso man mano che gli ecosistemi dei modelli di IA diventano più omogenei. I settori finanziario e delle criptovalute sono esposti direttamente, data la profonda integrazione degli agenti algoritmici nell'infrastruttura di trading.
Le trappole "Human-in-the-Loop" completano la tassonomia prendendo di mira i supervisori umani che controllano gli agenti piuttosto che gli agenti stessi. Un agente compromesso può generare output progettati per indurre "fatica da approvazione", presentare sintesi tecnicamente complesse che un non esperto autorizzerebbe senza un esame approfondito, o inserire link di phishing che sembrano raccomandazioni legittime. I ricercatori descrivono questa categoria come poco esplorata, ma destinata a crescere con l'espansione dei sistemi ibridi uomo-IA.
I ricercatori affermano che la sicurezza degli agenti IA richiede più di semplici correzioni tecniche
Il documento non tratta queste sei categorie come isolate. Le singole trappole possono essere concatenate, stratificate su più fonti o progettate per attivarsi solo in specifiche condizioni future. Ogni agente testato in vari studi di red-teaming citati nel documento è stato compromesso almeno una volta, in alcuni casi eseguendo azioni illegali o dannose.
Il CEO di OpenAI Sam Altman e altri avevano già segnalato in precedenza i rischi di concedere agli agenti un accesso incontrollato a sistemi sensibili, ma questo articolo fornisce la prima mappa strutturata di come esattamente tali rischi si concretizzino nella pratica. I ricercatori di Deepmind chiedono una risposta coordinata che abbracci tre aree.
Dal punto di vista tecnico, raccomandano l'addestramento avversario durante lo sviluppo del modello, scanner di contenuti in fase di esecuzione, filtri delle fonti pre-acquisizione e monitor di output in grado di sospendere un agente a metà attività se viene rilevato un comportamento anomalo. A livello di ecosistema, sostengono nuovi standard web che consentano ai siti web di segnalare i contenuti destinati al consumo da parte dell'IA e sistemi di reputazione che valutino l'affidabilità dei domini.

Anthropic limita l'accesso all'agente Claude nel contesto del boom dell'automazione basata sull'IA nel settore delle criptovalute
Il 4 aprile Anthropic ha interrotto l'accesso tramite abbonamento a Claude per Openclaw, costringendo gli utenti degli agenti IA basati su blockchain a passare a un sistema di fatturazione a consumo. read more.
Leggi ora
Anthropic limita l'accesso all'agente Claude nel contesto del boom dell'automazione basata sull'IA nel settore delle criptovalute
Il 4 aprile Anthropic ha interrotto l'accesso tramite abbonamento a Claude per Openclaw, costringendo gli utenti degli agenti IA basati su blockchain a passare a un sistema di fatturazione a consumo. read more.
Leggi ora
Anthropic limita l'accesso all'agente Claude nel contesto del boom dell'automazione basata sull'IA nel settore delle criptovalute
Leggi oraIl 4 aprile Anthropic ha interrotto l'accesso tramite abbonamento a Claude per Openclaw, costringendo gli utenti degli agenti IA basati su blockchain a passare a un sistema di fatturazione a consumo. read more.
Dal punto di vista legale, individuano una lacuna in materia di responsabilità: quando un agente dirottato commette un reato finanziario, i quadri normativi attuali non offrono una risposta chiara sulla questione se la responsabilità ricada sull'operatore dell'agente, sul fornitore del modello o sul proprietario del dominio. I ricercatori inquadrano la sfida con deliberata enfasi:
"Il web è stato costruito per gli occhi umani; ora viene ricostruito per i lettori automatici."
Con l'accelerazione dell'adozione degli agenti, la domanda si sposta da quali informazioni esistono online a cosa si farà credere ai sistemi di IA al riguardo. Resta da vedere se i responsabili politici, gli sviluppatori e i ricercatori di sicurezza riusciranno a coordinarsi abbastanza rapidamente da rispondere a questa domanda prima che gli attacchi nel mondo reale raggiungano una scala significativa.














