Pesquisadores do Google DeepMind publicaram a primeira estrutura sistemática que cataloga como conteúdos maliciosos na web podem manipular, sequestrar e transformar agentes de IA autônomos em armas contra seus próprios usuários.
O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

Pontos principais:
- ">Pesquisadores do Google Deepmind identificaram seis categorias de armadilhas para agentes de IA, com taxas de sucesso na injeção de conteúdo chegando a 86%.
- ">Armadilhas de controle comportamental direcionadas ao Microsoft M365 Copilot alcançaram 10/10 de exfiltração de dados em testes documentados.
- A Deepmind defende o treinamento adversarial, scanners de conteúdo em tempo de execução e novos padrões da web para proteger os agentes até 2026.
Artigo da Deepmind: Agentes de IA podem ser sequestrados por meio de memória contaminada e comandos HTML invisíveis
O artigo, intitulado “Armadilhas para Agentes de IA”, foi escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo e Simon Osindero, todos afiliados ao Google Deepmind, e publicado no SSRN no final de março de 2026. Ele surge em um momento em que as empresas correm para implantar agentes de IA capazes de navegar na web, ler e-mails, executar transações e gerar subagentes sem supervisão humana direta.
Os pesquisadores argumentam que essas capacidades também representam um risco. “Ao alterar o ambiente em vez do modelo”, afirma o artigo, “a armadilha transforma as próprias capacidades do agente em uma arma contra ele.”
A estrutura do artigo identifica um total de seis categorias de ataque organizadas em torno da parte da operação do agente que elas visam. As Armadilhas de Injeção de Conteúdo exploram a lacuna entre o que um humano vê em uma página da web e o que um agente de IA analisa no HTML, CSS e metadados subjacentes.
Instruções ocultas em comentários HTML, tags de acessibilidade ou texto estilizado como invisível nunca aparecem para revisores humanos, mas são registradas como comandos legítimos pelos agentes. O benchmark WASP descobriu que injeções simples de prompts escritos por humanos, incorporadas ao conteúdo da web, sequestram parcialmente os agentes em até 86% dos cenários testados.
As armadilhas de manipulação semântica funcionam de maneira diferente. Em vez de injetar comandos, elas saturam o texto com enquadramento, sinais de autoridade ou linguagem carregada de emoção para distorcer o raciocínio do agente. Modelos de linguagem de grande porte (LLMs) exibem os mesmos vieses de ancoragem e enquadramento que afetam a cognição humana, o que significa que reformular fatos idênticos pode produzir resultados drasticamente diferentes por parte dos agentes.
As Armadilhas de Estado Cognitivo vão além, contaminando os bancos de dados de recuperação que os agentes usam para a memória. Pesquisas citadas no artigo mostram que injetar menos de um punhado de documentos otimizados em uma base de conhecimento pode redirecionar de forma confiável as respostas dos agentes para consultas direcionadas, com algumas taxas de sucesso de ataque excedendo 80% com menos de 0,1% de contaminação de dados.
As Armadilhas de Controle Comportamental ignoram a sutileza e visam diretamente a camada de ação de um agente. Isso inclui sequências de jailbreak incorporadas que substituem o alinhamento de segurança uma vez incorporadas, comandos de exfiltração de dados que redirecionam informações confidenciais do usuário para terminais controlados pelo invasor e armadilhas de geração de subagentes que coagem um agente pai a instanciar agentes filhos comprometidos.
O artigo documenta um caso envolvendo o M365 Copilot da Microsoft, no qual um único e-mail malicioso fez com que o sistema contornasse classificadores internos e vazasse todo o seu contexto privilegiado para um endpoint controlado pelo invasor. As Armadilhas Sistêmicas são projetadas para causar falha em redes inteiras de agentes simultaneamente, em vez de sistemas individuais.
Isso inclui ataques de congestionamento que sincronizam agentes em uma demanda exaustiva por recursos limitados, cascatas de interdependência modeladas no Flash Crash do mercado de ações de 2010 e armadilhas de fragmentos composicionais que espalham uma carga maliciosa por várias fontes de aparência benigna que se reconstituem em um ataque completo somente quando agregadas.
“Semeando o ambiente com entradas projetadas para desencadear falhas em nível macro por meio do comportamento correlacionado dos agentes”, explica o artigo do Google Deepmind, torna-se cada vez mais perigoso à medida que os ecossistemas de modelos de IA se tornam mais homogêneos. Os setores financeiro e de criptomoedas enfrentam exposição direta, dada a profunda integração dos agentes algorítmicos na infraestrutura de negociação.
As armadilhas “Human-in-the-Loop” completam a taxonomia ao visar os supervisores humanos que vigiam os agentes, em vez dos próprios agentes. Um agente comprometido pode gerar saídas projetadas para induzir fadiga de aprovação, apresentar resumos tecnicamente densos que um leigo autorizaria sem análise, ou inserir links de phishing que parecem recomendações legítimas. Os pesquisadores descrevem essa categoria como pouco explorada, mas com expectativa de crescimento à medida que os sistemas híbridos de IA–humano se expandem.
Pesquisadores afirmam que proteger agentes de IA requer mais do que correções técnicas
O artigo não trata essas seis categorias como isoladas. Armadilhas individuais podem ser encadeadas, dispostas em camadas por várias fontes ou projetadas para serem ativadas apenas sob condições futuras específicas. Todos os agentes testados em vários estudos de red teaming citados no artigo foram comprometidos pelo menos uma vez, em alguns casos executando ações ilegais ou prejudiciais.
O CEO da OpenAI, Sam Altman, e outros já haviam alertado anteriormente sobre os riscos de conceder aos agentes acesso irrestrito a sistemas sensíveis, mas este artigo fornece o primeiro mapa estruturado de como exatamente esses riscos se materializam na prática. Os pesquisadores da Deepmind defendem uma resposta coordenada abrangendo três áreas.
No lado técnico, eles recomendam treinamento adversarial durante o desenvolvimento do modelo, scanners de conteúdo em tempo de execução, filtros de fonte pré-ingestão e monitores de saída que possam suspender um agente no meio de uma tarefa se for detectado comportamento anômalo. No nível do ecossistema, eles defendem novos padrões da web que permitam aos sites sinalizar conteúdo destinado ao consumo de IA e sistemas de reputação que avaliem a confiabilidade do domínio.

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas
A Anthropic suspendeu o acesso por assinatura do Claude para o Openclaw em 4 de abril, levando os usuários do agente de IA baseado em criptografia a adotarem o modelo de cobrança por uso. read more.
Leia agora
A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas
A Anthropic suspendeu o acesso por assinatura do Claude para o Openclaw em 4 de abril, levando os usuários do agente de IA baseado em criptografia a adotarem o modelo de cobrança por uso. read more.
Leia agora
A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas
Leia agoraA Anthropic suspendeu o acesso por assinatura do Claude para o Openclaw em 4 de abril, levando os usuários do agente de IA baseado em criptografia a adotarem o modelo de cobrança por uso. read more.
No aspecto jurídico, eles identificam uma lacuna de responsabilização: quando um agente sequestrado comete um crime financeiro, as estruturas atuais não oferecem uma resposta clara sobre se a responsabilidade recai sobre o operador do agente, o provedor do modelo ou o proprietário do domínio. Os pesquisadores enquadram o desafio com peso deliberado:
“A web foi construída para os olhos humanos; agora está sendo reconstruída para leitores de máquina.”
À medida que a adoção de agentes se acelera, a questão passa de quais informações existem online para o que os sistemas de IA serão levados a acreditar sobre elas. Se os formuladores de políticas, desenvolvedores e pesquisadores de segurança conseguirão se coordenar com rapidez suficiente para responder a essa pergunta antes que explorações no mundo real ocorram em grande escala permanece uma variável em aberto.














