Los investigadores de Google DeepMind han publicado el primer marco sistemático que describe cómo el contenido web malicioso puede manipular, secuestrar y utilizar como arma a los agentes de IA autónomos en contra de sus propios usuarios. Puntos clave:
El artículo de Deepmind titulado «AI Agent Traps» describe cómo los hackers podrían utilizar los agentes de IA en contra de los usuarios

- ">Los investigadores de Google DeepMind identificaron seis categorías de trampas para agentes de IA, con tasas de éxito en la inyección de contenido que alcanzaron el 86 %.
- ">Las trampas de control del comportamiento dirigidas a Microsoft M365 Copilot lograron una exfiltración de datos del 100 % en las pruebas documentadas.
- DeepMind aboga por el entrenamiento adversarial, los escáneres de contenido en tiempo de ejecución y nuevos estándares web para proteger a los agentes de aquí a 2026.
Artículo de Deepmind: Los agentes de IA pueden ser secuestrados mediante memoria envenenada y comandos HTML invisibles
El artículo, titulado «AI Agent Traps», fue escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo y Simon Osindero, todos ellos afiliados a Google Deepmind, y publicado en SSRN a finales de marzo de 2026. Llega en un momento en que las empresas compiten por implementar agentes de IA capaces de navegar por la web, leer correos electrónicos, ejecutar transacciones y generar subagentes sin supervisión humana directa.
Los investigadores sostienen que esas capacidades también suponen un riesgo. «Al alterar el entorno en lugar del modelo», afirma el artículo, «la trampa utiliza las propias capacidades del agente en su contra». El marco del artículo identifica un total de seis categorías de ataque organizadas en función de la parte del funcionamiento del agente a la que se dirigen. Las trampas de inyección de contenido aprovechan la brecha entre lo que un humano ve en una página web y lo que un agente de IA analiza en el HTML, CSS y metadatos subyacentes. Las instrucciones ocultas en comentarios HTML, etiquetas de accesibilidad o texto invisible por estilo nunca aparecen ante los revisores humanos, pero se registran como comandos legítimos para los agentes. La prueba de referencia WASP descubrió que las inyecciones de comandos simples, escritas por humanos e incrustadas en el contenido web, secuestran parcialmente a los agentes en hasta el 86 % de los escenarios probados.
Las trampas de manipulación semántica funcionan de manera diferente. En lugar de inyectar comandos, saturan el texto con encuadre, señales de autoridad o lenguaje cargado de emotividad para sesgar el razonamiento del agente. Los grandes modelos de lenguaje (LLM) muestran los mismos sesgos de anclaje y encuadre que afectan a la cognición humana, lo que significa que reformular hechos idénticos puede producir resultados del agente drásticamente diferentes.
Las trampas de estado cognitivo van más allá al contaminar las bases de datos de recuperación que los agentes utilizan como memoria. Las investigaciones citadas en el artículo muestran que inyectar menos de un puñado de documentos optimizados en una base de conocimientos puede redirigir de forma fiable las respuestas de los agentes ante consultas específicas, con tasas de éxito de los ataques que superan el 80 % con una contaminación de datos inferior al 0,1 %.
Las trampas de control del comportamiento se saltan las sutilezas y apuntan directamente a la capa de acción de un agente. Estas incluyen secuencias de fuga de jaula integradas que anulan la alineación de seguridad una vez incorporadas, comandos de exfiltración de datos que redirigen información confidencial del usuario a puntos finales controlados por el atacante, y trampas de generación de subagentes que obligan a un agente padre a instanciar agentes hijos comprometidos.
El artículo documenta un caso relacionado con M365 Copilot de Microsoft en el que un único correo electrónico manipulado provocó que el sistema eludiera los clasificadores internos y filtrara todo su contexto privilegiado a un punto final controlado por el atacante. Las trampas sistémicas están diseñadas para provocar el fallo simultáneo de redes enteras de agentes, en lugar de sistemas individuales.
Entre ellas se incluyen ataques de congestión que sincronizan a los agentes para generar una demanda exhaustiva de recursos limitados, cascadas de interdependencia inspiradas en el «Flash Crash» bursátil de 2010, y trampas de fragmentos composicionales que dispersan una carga maliciosa a través de múltiples fuentes de apariencia benigna que, al agregarse, se reconstituyen en un ataque completo.
«Sembrar el entorno con entradas diseñadas para desencadenar fallos a nivel macro a través del comportamiento correlacionado de los agentes», explica el artículo de Google Deepmind, se vuelve cada vez más peligroso a medida que los ecosistemas de modelos de IA se vuelven más homogéneos. Los sectores financiero y de las criptomonedas se enfrentan a una exposición directa, dada la profunda integración de los agentes algorítmicos en la infraestructura de negociación.
Las trampas «Human-in-the-Loop» completan la taxonomía al dirigirse a los supervisores humanos que vigilan a los agentes, en lugar de a los propios agentes. Un agente comprometido puede generar resultados diseñados para provocar fatiga de aprobación, presentar resúmenes técnicamente densos que un no experto autorizaría sin escrutinio, o insertar enlaces de phishing que parezcan recomendaciones legítimas. Los investigadores describen esta categoría como poco explorada, pero esperan que crezca a medida que se amplíen los sistemas híbridos de IA y humanos.
Los investigadores afirman que proteger los agentes de IA requiere algo más que soluciones técnicas
El artículo no trata estas seis categorías como entidades aisladas. Las trampas individuales pueden encadenarse, superponerse en múltiples fuentes o diseñarse para activarse solo bajo condiciones futuras específicas. Todos los agentes probados en diversos estudios de red teaming citados en el artículo fueron comprometidos al menos una vez, ejecutando en algunos casos acciones ilegales o perjudiciales.
El director ejecutivo de OpenAI, Sam Altman, y otros ya habían señalado anteriormente los riesgos de dar a los agentes acceso sin control a sistemas sensibles, pero este artículo ofrece el primer mapa estructurado de cómo se materializan exactamente esos riesgos en la práctica. Los investigadores de DeepMind abogan por una respuesta coordinada que abarque tres áreas.
En el aspecto técnico, recomiendan el entrenamiento adversarial durante el desarrollo de modelos, escáneres de contenido en tiempo de ejecución, filtros de origen previos a la ingestión y monitores de salida que puedan suspender a un agente en medio de una tarea si se detecta un comportamiento anómalo. A nivel del ecosistema, abogan por nuevos estándares web que permitan a los sitios web marcar el contenido destinado al consumo de IA y por sistemas de reputación que puntúen la fiabilidad de los dominios.

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas
Anthropic suspendió el acceso mediante suscripción de Claude para Openclaw el 4 de abril, lo que obligó a los usuarios de este agente de IA basado en criptomonedas a pasar a un modelo de facturación de pago por uso. read more.
Leer ahora
Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas
Anthropic suspendió el acceso mediante suscripción de Claude para Openclaw el 4 de abril, lo que obligó a los usuarios de este agente de IA basado en criptomonedas a pasar a un modelo de facturación de pago por uso. read more.
Leer ahora
Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas
Leer ahoraAnthropic suspendió el acceso mediante suscripción de Claude para Openclaw el 4 de abril, lo que obligó a los usuarios de este agente de IA basado en criptomonedas a pasar a un modelo de facturación de pago por uso. read more.
En el ámbito jurídico, identifican una laguna en materia de responsabilidad: cuando un agente secuestrado comete un delito financiero, los marcos normativos actuales no ofrecen una respuesta clara sobre si la responsabilidad recae en el operador del agente, el proveedor del modelo o el propietario del dominio. Los investigadores plantean el desafío con especial énfasis:
«La web se construyó para los ojos humanos; ahora se está reconstruyendo para lectores automáticos».
A medida que se acelera la adopción de agentes, la pregunta pasa de qué información existe en línea a qué se hará creer a los sistemas de IA al respecto. Sigue siendo una incógnita si los responsables políticos, los desarrolladores y los investigadores de seguridad podrán coordinarse con la suficiente rapidez para responder a esa pregunta antes de que los ataques en el mundo real alcancen una escala significativa.














