Les chercheurs de Google DeepMind ont publié le premier cadre systématique répertoriant la manière dont les contenus Web malveillants peuvent manipuler, détourner et utiliser à des fins malveillantes des agents IA autonomes contre leurs propres utilisateurs. Points clés :
L'article de Deepmind intitulé « AI Agent Traps » décrit comment les pirates informatiques pourraient utiliser les agents IA à des fins malveillantes contre les utilisateurs

- ">Les chercheurs de Google DeepMind ont identifié 6 catégories de pièges pour agents IA, avec des taux de réussite d'injection de contenu atteignant 86 %.
- ">Les pièges de contrôle comportemental ciblant Microsoft M365 Copilot ont permis d'exfiltrer 100 % des données lors des tests documentés.
- DeepMind préconise un apprentissage antagoniste, des scanners de contenu en temps réel et de nouvelles normes Web pour sécuriser les agents d'ici 2026.
Article DeepMind : Les agents IA peuvent être détournés via une mémoire empoisonnée et des commandes HTML invisibles
L'article, intitulé « AI Agent Traps », a été rédigé par Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo et Simon Osindero, tous affiliés à Google Deepmind, et publié sur SSRN fin mars 2026. Il arrive alors que les entreprises se précipitent pour déployer des agents IA capables de naviguer sur le Web, de lire des e-mails, d'exécuter des transactions et de générer des sous-agents sans supervision humaine directe.
Les chercheurs affirment que ces capacités constituent également un risque. « En modifiant l'environnement plutôt que le modèle », indique l'article, « le piège retourne les propres capacités de l'agent contre lui. » Le cadre présenté dans l'article identifie au total six catégories d'attaques, classées en fonction de la partie du fonctionnement de l'agent qu'elles ciblent. Les pièges par injection de contenu exploitent l’écart entre ce qu’un humain voit sur une page web et ce qu’un agent IA analyse dans le code HTML, CSS et les métadonnées sous-jacents. Les instructions cachées dans les commentaires HTML, les balises d’accessibilité ou le texte stylisé invisible n’apparaissent jamais aux réviseurs humains, mais sont enregistrées comme des commandes légitimes par les agents. Le benchmark WASP a révélé que de simples injections de prompts écrites par des humains et intégrées au contenu web détournent partiellement les agents dans jusqu’à 86 % des scénarios testés.
Les pièges de manipulation sémantique fonctionnent différemment. Plutôt que d’injecter des commandes, ils saturent le texte de cadrage, de signaux d’autorité ou de langage chargé d’émotion afin de fausser le raisonnement de l’agent. Les grands modèles linguistiques (LLM) présentent les mêmes biais d’ancrage et de cadrage qui affectent la cognition humaine, ce qui signifie que reformuler des faits identiques peut produire des résultats d’agent radicalement différents.
Les pièges d'état cognitif vont plus loin en corrompant les bases de données de récupération utilisées par les agents pour leur mémoire. Les recherches citées dans l'article montrent que l'injection de moins d'une poignée de documents optimisés dans une base de connaissances peut rediriger de manière fiable les réponses des agents pour des requêtes ciblées, avec des taux de réussite des attaques dépassant parfois 80 % pour une contamination des données inférieure à 0,1 %.
Les pièges de contrôle comportemental font l'impasse sur la subtilité et visent directement la couche d'action d'un agent. Ceux-ci comprennent des séquences de jailbreak intégrées qui contournent l'alignement de sécurité une fois ingérées, des commandes d'exfiltration de données qui redirigent les informations sensibles de l'utilisateur vers des terminaux contrôlés par l'attaquant, et des pièges de création de sous-agents qui contraignent un agent parent à instancier des agents enfants compromis.
L'article documente un cas impliquant M365 Copilot de Microsoft, où un seul e-mail spécialement conçu a conduit le système à contourner les classificateurs internes et à divulguer l'intégralité de son contexte privilégié vers un terminal contrôlé par l'attaquant. Les pièges systémiques sont conçus pour faire échouer simultanément des réseaux entiers d'agents plutôt que des systèmes individuels.
Celles-ci comprennent des attaques par congestion qui synchronisent les agents pour créer une demande exhaustive de ressources limitées, des cascades d'interdépendance inspirées du « Flash Crash » boursier de 2010, et des pièges de fragmentation compositionnelle qui dispersent une charge utile malveillante à travers de multiples sources d'apparence inoffensive qui ne se reconstituent en une attaque complète qu'une fois agrégées.
« Ensemencer l’environnement avec des entrées conçues pour déclencher des défaillances à l’échelle macro via un comportement corrélé des agents », explique l’article de Google DeepMind, devient de plus en plus dangereux à mesure que les écosystèmes de modèles d’IA deviennent plus homogènes. Les secteurs de la finance et de la cryptomonnaie sont directement exposés, compte tenu de l’intégration profonde des agents algorithmiques dans l’infrastructure de trading.
Les pièges « Human-in-the-Loop » complètent cette taxonomie en ciblant les superviseurs humains qui surveillent les agents plutôt que les agents eux-mêmes. Un agent compromis peut générer des sorties conçues pour induire une lassitude face aux validations, présenter des résumés techniquement denses qu’un non-expert autoriserait sans examen approfondi, ou insérer des liens de phishing qui ressemblent à des recommandations légitimes. Les chercheurs décrivent cette catégorie comme sous-explorée, mais s’attendent à ce qu’elle se développe à mesure que les systèmes hybrides homme-IA se généralisent.
Selon les chercheurs, la sécurisation des agents IA nécessite plus que des correctifs techniques
L'article ne traite pas ces six catégories comme des entités isolées. Les pièges individuels peuvent être enchaînés, superposés sur plusieurs sources, ou conçus pour ne s'activer que dans des conditions futures spécifiques. Tous les agents testés dans le cadre des différentes études de red teaming citées dans l'article ont été compromis au moins une fois, exécutant dans certains cas des actions illégales ou nuisibles.
Le PDG d'OpenAI, Sam Altman, et d'autres ont déjà signalé les risques liés au fait de donner aux agents un accès sans contrôle à des systèmes sensibles, mais cet article fournit la première cartographie structurée de la manière exacte dont ces risques se concrétisent dans la pratique. Les chercheurs de DeepMind appellent à une réponse coordonnée couvrant trois domaines.
Sur le plan technique, ils recommandent un apprentissage antagoniste pendant le développement des modèles, des scanners de contenu en temps réel, des filtres de source en amont et des moniteurs de sortie capables de suspendre un agent en cours de tâche si un comportement anormal est détecté. Au niveau de l'écosystème, ils préconisent de nouvelles normes web qui permettraient aux sites web de signaler les contenus destinés à la consommation par l'IA, ainsi que des systèmes de réputation évaluant la fiabilité des domaines.

Anthropic limite l'accès à l'agent Claude alors que l'automatisation par l'IA connaît un essor dans le secteur des cryptomonnaies
Le 4 avril, Anthropic a suspendu l'accès par abonnement à Openclaw pour Claude, obligeant ainsi les utilisateurs de cet agent IA spécialisé dans la cryptographie à passer à une facturation à l'utilisation. read more.
Lire
Anthropic limite l'accès à l'agent Claude alors que l'automatisation par l'IA connaît un essor dans le secteur des cryptomonnaies
Le 4 avril, Anthropic a suspendu l'accès par abonnement à Openclaw pour Claude, obligeant ainsi les utilisateurs de cet agent IA spécialisé dans la cryptographie à passer à une facturation à l'utilisation. read more.
Lire
Anthropic limite l'accès à l'agent Claude alors que l'automatisation par l'IA connaît un essor dans le secteur des cryptomonnaies
LireLe 4 avril, Anthropic a suspendu l'accès par abonnement à Openclaw pour Claude, obligeant ainsi les utilisateurs de cet agent IA spécialisé dans la cryptographie à passer à une facturation à l'utilisation. read more.
Sur le plan juridique, ils identifient un vide en matière de responsabilité : lorsqu'un agent piraté commet un crime financier, les cadres réglementaires actuels n'apportent aucune réponse claire quant à savoir si la responsabilité incombe à l'opérateur de l'agent, au fournisseur du modèle ou au propriétaire du domaine. Les chercheurs soulignent l'importance de ce défi :
« Le Web a été conçu pour les yeux humains ; il est aujourd’hui repensé pour les lecteurs automatiques. »
À mesure que l'adoption des agents s'accélère, la question ne porte plus sur les informations existant en ligne, mais sur ce que les systèmes d'IA seront amenés à croire à leur sujet. La question de savoir si les décideurs politiques, les développeurs et les chercheurs en sécurité pourront se coordonner assez rapidement pour répondre à cette question avant que des exploits à grande échelle ne se produisent dans le monde réel reste une inconnue.














