NewsPublicado:5 abr 2026, 23:45

El artículo de Deepmind titulado «AI Agent Traps» describe cómo los hackers podrían utilizar los agentes de IA en contra de los usuarios

Los investigadores de Google DeepMind han publicado el primer marco sistemático que describe cómo el contenido web malicioso puede manipular, secuestrar y utilizar como arma a los agentes de IA autónomos en contra de sus propios usuarios. Puntos clave:

ESCRITO POR

Jamie Redman

Publicado: 5 abr 2026, 23:45

El artículo de Deepmind titulado «AI Agent Traps» describe cómo los hackers podrían utilizar los agentes de IA en contra de los usuarios

">Los investigadores de Google DeepMind identificaron seis categorías de trampas para agentes de IA, con tasas de éxito en la inyección de contenido que alcanzaron el 86 %.
">Las trampas de control del comportamiento dirigidas a Microsoft M365 Copilot lograron una exfiltración de datos del 100 % en las pruebas documentadas.
DeepMind aboga por el entrenamiento adversarial, los escáneres de contenido en tiempo de ejecución y nuevos estándares web para proteger a los agentes de aquí a 2026.

Artículo de Deepmind: Los agentes de IA pueden ser secuestrados mediante memoria envenenada y comandos HTML invisibles

El artículo, titulado «AI Agent Traps», fue escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo y Simon Osindero, todos ellos afiliados a Google Deepmind, y publicado en SSRN a finales de marzo de 2026. Llega en un momento en que las empresas compiten por implementar agentes de IA capaces de navegar por la web, leer correos electrónicos, ejecutar transacciones y generar subagentes sin supervisión humana directa.

Los investigadores sostienen que esas capacidades también suponen un riesgo. «Al alterar el entorno en lugar del modelo», afirma el artículo, «la trampa utiliza las propias capacidades del agente en su contra». El marco del artículo identifica un total de seis categorías de ataque organizadas en función de la parte del funcionamiento del agente a la que se dirigen. Las trampas de inyección de contenido aprovechan la brecha entre lo que un humano ve en una página web y lo que un agente de IA analiza en el HTML, CSS y metadatos subyacentes. Las instrucciones ocultas en comentarios HTML, etiquetas de accesibilidad o texto invisible por estilo nunca aparecen ante los revisores humanos, pero se registran como comandos legítimos para los agentes. La prueba de referencia WASP descubrió que las inyecciones de comandos simples, escritas por humanos e incrustadas en el contenido web, secuestran parcialmente a los agentes en hasta el 86 % de los escenarios probados.

Las trampas de manipulación semántica funcionan de manera diferente. En lugar de inyectar comandos, saturan el texto con encuadre, señales de autoridad o lenguaje cargado de emotividad para sesgar el razonamiento del agente. Los grandes modelos de lenguaje (LLM) muestran los mismos sesgos de anclaje y encuadre que afectan a la cognición humana, lo que significa que reformular hechos idénticos puede producir resultados del agente drásticamente diferentes.

Las trampas de estado cognitivo van más allá al contaminar las bases de datos de recuperación que los agentes utilizan como memoria. Las investigaciones citadas en el artículo muestran que inyectar menos de un puñado de documentos optimizados en una base de conocimientos puede redirigir de forma fiable las respuestas de los agentes ante consultas específicas, con tasas de éxito de los ataques que superan el 80 % con una contaminación de datos inferior al 0,1 %.

Las trampas de control del comportamiento se saltan las sutilezas y apuntan directamente a la capa de acción de un agente. Estas incluyen secuencias de fuga de jaula integradas que anulan la alineación de seguridad una vez incorporadas, comandos de exfiltración de datos que redirigen información confidencial del usuario a puntos finales controlados por el atacante, y trampas de generación de subagentes que obligan a un agente padre a instanciar agentes hijos comprometidos.

El artículo documenta un caso relacionado con M365 Copilot de Microsoft en el que un único correo electrónico manipulado provocó que el sistema eludiera los clasificadores internos y filtrara todo su contexto privilegiado a un punto final controlado por el atacante. Las trampas sistémicas están diseñadas para provocar el fallo simultáneo de redes enteras de agentes, en lugar de sistemas individuales.

Entre ellas se incluyen ataques de congestión que sincronizan a los agentes para generar una demanda exhaustiva de recursos limitados, cascadas de interdependencia inspiradas en el «Flash Crash» bursátil de 2010, y trampas de fragmentos composicionales que dispersan una carga maliciosa a través de múltiples fuentes de apariencia benigna que, al agregarse, se reconstituyen en un ataque completo.

«Sembrar el entorno con entradas diseñadas para desencadenar fallos a nivel macro a través del comportamiento correlacionado de los agentes», explica el artículo de Google Deepmind, se vuelve cada vez más peligroso a medida que los ecosistemas de modelos de IA se vuelven más homogéneos. Los sectores financiero y de las criptomonedas se enfrentan a una exposición directa, dada la profunda integración de los agentes algorítmicos en la infraestructura de negociación.

Las trampas «Human-in-the-Loop» completan la taxonomía al dirigirse a los supervisores humanos que vigilan a los agentes, en lugar de a los propios agentes. Un agente comprometido puede generar resultados diseñados para provocar fatiga de aprobación, presentar resúmenes técnicamente densos que un no experto autorizaría sin escrutinio, o insertar enlaces de phishing que parezcan recomendaciones legítimas. Los investigadores describen esta categoría como poco explorada, pero esperan que crezca a medida que se amplíen los sistemas híbridos de IA y humanos.

Los investigadores afirman que proteger los agentes de IA requiere algo más que soluciones técnicas

El artículo no trata estas seis categorías como entidades aisladas. Las trampas individuales pueden encadenarse, superponerse en múltiples fuentes o diseñarse para activarse solo bajo condiciones futuras específicas. Todos los agentes probados en diversos estudios de red teaming citados en el artículo fueron comprometidos al menos una vez, ejecutando en algunos casos acciones ilegales o perjudiciales.

El director ejecutivo de OpenAI, Sam Altman, y otros ya habían señalado anteriormente los riesgos de dar a los agentes acceso sin control a sistemas sensibles, pero este artículo ofrece el primer mapa estructurado de cómo se materializan exactamente esos riesgos en la práctica. Los investigadores de DeepMind abogan por una respuesta coordinada que abarque tres áreas.

En el aspecto técnico, recomiendan el entrenamiento adversarial durante el desarrollo de modelos, escáneres de contenido en tiempo de ejecución, filtros de origen previos a la ingestión y monitores de salida que puedan suspender a un agente en medio de una tarea si se detecta un comportamiento anómalo. A nivel del ecosistema, abogan por nuevos estándares web que permitan a los sitios web marcar el contenido destinado al consumo de IA y por sistemas de reputación que puntúen la fiabilidad de los dominios.

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Anthropic suspendió el acceso mediante suscripción de Claude para Openclaw el 4 de abril, lo que obligó a los usuarios de este agente de IA basado en criptomonedas a pasar a un modelo de facturación de pago por uso. read more.

Leer ahora

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Leer ahora

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Leer ahora

En el ámbito jurídico, identifican una laguna en materia de responsabilidad: cuando un agente secuestrado comete un delito financiero, los marcos normativos actuales no ofrecen una respuesta clara sobre si la responsabilidad recae en el operador del agente, el proveedor del modelo o el propietario del dominio. Los investigadores plantean el desafío con especial énfasis:

«La web se construyó para los ojos humanos; ahora se está reconstruyendo para lectores automáticos».

A medida que se acelera la adopción de agentes, la pregunta pasa de qué información existe en línea a qué se hará creer a los sistemas de IA al respecto. Sigue siendo una incógnita si los responsables políticos, los desarrolladores y los investigadores de seguridad podrán coordinarse con la suficiente rapidez para responder a esa pregunta antes de que los ataques en el mundo real alcancen una escala significativa.

Etiquetas en esta historia

Artificial intelligence (AI)cybersecurity Google Security

Selecciones de Juegos de Bitcoin

Betpanda

Reseña Obtener Bono

100% de Bono hasta 1 BTC + 10% de Reembolso Semanal sin Apuesta

Cryptorino

Reseña Obtener Bono

100% de Bono Hasta 1 BTC + 10% de Reembolso Semanal

Playbet.io

Reseña Obtener Bono

130% hasta 2,500 USDT + 200 Giros Gratis + 20% de Reembolso Semanal sin Apuesta

Parimatch

Reseña Obtener Bono

1000% de Bono de Bienvenida + Apuesta Gratis hasta 1 BTC

Cloudbet

Reseña Obtener Bono

Hasta 2,500 USDT + 150 Giros Gratis + Hasta 30% de Reembolso

BC.Game

Reseña Obtener Bono

470% de Bono hasta $500,000 + 400 Giros Gratis + 20% de Reembolso

Stake

Reseña Obtener Bono

3.5% de Reembolso en Cada Apuesta + Sorteos Semanales

Vave

Reseña Obtener Bono

425% hasta 5 BTC + 100 Giros Gratis

Punkz

Reseña Obtener Bono

100% hasta $20K + Reembolso Diario

El artículo de Deepmind titulado «AI Agent Traps» describe cómo los hackers podrían utilizar los agentes de IA en contra de los usuarios

Artículo de Deepmind: Los agentes de IA pueden ser secuestrados mediante memoria envenenada y comandos HTML invisibles

Los investigadores afirman que proteger los agentes de IA requiere algo más que soluciones técnicas

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Anthropic restringe el acceso al agente Claude en medio del auge de la automatización mediante IA en el sector de las criptomonedas

Etiquetas en esta historia

Selecciones de Juegos de Bitcoin

Mejores exchanges de criptomonedas

Mejores exchanges de Bitcoin

Mejores exchanges P2P

Ver todas las reseñas de exchanges...

Exchanges

Wallets

Juegos de azar

ViaBTC presenta soluciones de préstamos garantizados para hacer frente a las diversas condiciones del mercado

MEXC integra USD1 en su infraestructura integral para usuarios de todo el mundo

Safe lanza la versión beta de Safenet, lo que permite a los titulares de tokens SAFE participar en la seguridad de la red

Adrian Wall, de Digital Sovereignty Alliance, habla sobre la tokenización en la Conferencia Penn Blockchain 2026

Bitget lleva las criptomonedas al día a día con el lanzamiento de la tarjeta Bitget en la región APAC

Polymarket se asocia con La Liga, la liga española de fútbol

Latam Insights: Global Pix y Mercado Libre ponen fin a su programa de tokens

Selecciones de Juegos de Bitcoin

Selecciones de Juegos de Bitcoin

Selecciones de Juegos de Bitcoin

COMUNICADOS DE PRENSA

ViaBTC presenta soluciones de préstamos garantizados para hacer frente a las diversas condiciones del mercado

MEXC integra USD1 en su infraestructura integral para usuarios de todo el mundo

Safe lanza la versión beta de Safenet, lo que permite a los titulares de tokens SAFE participar en la seguridad de la red

Adrian Wall, de Digital Sovereignty Alliance, habla sobre la tokenización en la Conferencia Penn Blockchain 2026

Bitget lleva las criptomonedas al día a día con el lanzamiento de la tarjeta Bitget en la región APAC

ÚLTIMAS NOTICIAS

Polymarket se asocia con La Liga, la liga española de fútbol

Latam Insights: Global Pix y Mercado Libre ponen fin a su programa de tokens

El artículo de Deepmind titulado «AI Agent Traps» describe cómo los hackers podrían utilizar los agentes de IA en contra de los usuarios

Japón reconoce más de 100 tokens criptográficos en 28 plataformas a medida que la regulación impulsa la expansión del mercado

Michael Saylor contra Peter Schiff: las perspectivas sobre el bitcoin se enfrentan mientras Schiff insta a vender MSTR antes de la caída