NewsPublicado:5 de abr. de 2026, 23:45

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

Pesquisadores do Google DeepMind publicaram a primeira estrutura sistemática que cataloga como conteúdos maliciosos na web podem manipular, sequestrar e transformar agentes de IA autônomos em armas contra seus próprios usuários.

ESCRITO POR

Jamie Redman

PARTILHAR

Publicado: 5 de abr. de 2026, 23:45

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

Pontos principais:

">Pesquisadores do Google Deepmind identificaram seis categorias de armadilhas para agentes de IA, com taxas de sucesso na injeção de conteúdo chegando a 86%.
">Armadilhas de controle comportamental direcionadas ao Microsoft M365 Copilot alcançaram 10/10 de exfiltração de dados em testes documentados.
A Deepmind defende o treinamento adversarial, scanners de conteúdo em tempo de execução e novos padrões da web para proteger os agentes até 2026.

Artigo da Deepmind: Agentes de IA podem ser sequestrados por meio de memória contaminada e comandos HTML invisíveis

O artigo, intitulado “Armadilhas para Agentes de IA”, foi escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo e Simon Osindero, todos afiliados ao Google Deepmind, e publicado no SSRN no final de março de 2026. Ele surge em um momento em que as empresas correm para implantar agentes de IA capazes de navegar na web, ler e-mails, executar transações e gerar subagentes sem supervisão humana direta.

Os pesquisadores argumentam que essas capacidades também representam um risco. “Ao alterar o ambiente em vez do modelo”, afirma o artigo, “a armadilha transforma as próprias capacidades do agente em uma arma contra ele.”

A estrutura do artigo identifica um total de seis categorias de ataque organizadas em torno da parte da operação do agente que elas visam. As Armadilhas de Injeção de Conteúdo exploram a lacuna entre o que um humano vê em uma página da web e o que um agente de IA analisa no HTML, CSS e metadados subjacentes.

Instruções ocultas em comentários HTML, tags de acessibilidade ou texto estilizado como invisível nunca aparecem para revisores humanos, mas são registradas como comandos legítimos pelos agentes. O benchmark WASP descobriu que injeções simples de prompts escritos por humanos, incorporadas ao conteúdo da web, sequestram parcialmente os agentes em até 86% dos cenários testados.

As armadilhas de manipulação semântica funcionam de maneira diferente. Em vez de injetar comandos, elas saturam o texto com enquadramento, sinais de autoridade ou linguagem carregada de emoção para distorcer o raciocínio do agente. Modelos de linguagem de grande porte (LLMs) exibem os mesmos vieses de ancoragem e enquadramento que afetam a cognição humana, o que significa que reformular fatos idênticos pode produzir resultados drasticamente diferentes por parte dos agentes.

As Armadilhas de Estado Cognitivo vão além, contaminando os bancos de dados de recuperação que os agentes usam para a memória. Pesquisas citadas no artigo mostram que injetar menos de um punhado de documentos otimizados em uma base de conhecimento pode redirecionar de forma confiável as respostas dos agentes para consultas direcionadas, com algumas taxas de sucesso de ataque excedendo 80% com menos de 0,1% de contaminação de dados.

As Armadilhas de Controle Comportamental ignoram a sutileza e visam diretamente a camada de ação de um agente. Isso inclui sequências de jailbreak incorporadas que substituem o alinhamento de segurança uma vez incorporadas, comandos de exfiltração de dados que redirecionam informações confidenciais do usuário para terminais controlados pelo invasor e armadilhas de geração de subagentes que coagem um agente pai a instanciar agentes filhos comprometidos.

O artigo documenta um caso envolvendo o M365 Copilot da Microsoft, no qual um único e-mail malicioso fez com que o sistema contornasse classificadores internos e vazasse todo o seu contexto privilegiado para um endpoint controlado pelo invasor. As Armadilhas Sistêmicas são projetadas para causar falha em redes inteiras de agentes simultaneamente, em vez de sistemas individuais.

Isso inclui ataques de congestionamento que sincronizam agentes em uma demanda exaustiva por recursos limitados, cascatas de interdependência modeladas no Flash Crash do mercado de ações de 2010 e armadilhas de fragmentos composicionais que espalham uma carga maliciosa por várias fontes de aparência benigna que se reconstituem em um ataque completo somente quando agregadas.

“Semeando o ambiente com entradas projetadas para desencadear falhas em nível macro por meio do comportamento correlacionado dos agentes”, explica o artigo do Google Deepmind, torna-se cada vez mais perigoso à medida que os ecossistemas de modelos de IA se tornam mais homogêneos. Os setores financeiro e de criptomoedas enfrentam exposição direta, dada a profunda integração dos agentes algorítmicos na infraestrutura de negociação.

As armadilhas “Human-in-the-Loop” completam a taxonomia ao visar os supervisores humanos que vigiam os agentes, em vez dos próprios agentes. Um agente comprometido pode gerar saídas projetadas para induzir fadiga de aprovação, apresentar resumos tecnicamente densos que um leigo autorizaria sem análise, ou inserir links de phishing que parecem recomendações legítimas. Os pesquisadores descrevem essa categoria como pouco explorada, mas com expectativa de crescimento à medida que os sistemas híbridos de IA–humano se expandem.

Pesquisadores afirmam que proteger agentes de IA requer mais do que correções técnicas

O artigo não trata essas seis categorias como isoladas. Armadilhas individuais podem ser encadeadas, dispostas em camadas por várias fontes ou projetadas para serem ativadas apenas sob condições futuras específicas. Todos os agentes testados em vários estudos de red teaming citados no artigo foram comprometidos pelo menos uma vez, em alguns casos executando ações ilegais ou prejudiciais.

O CEO da OpenAI, Sam Altman, e outros já haviam alertado anteriormente sobre os riscos de conceder aos agentes acesso irrestrito a sistemas sensíveis, mas este artigo fornece o primeiro mapa estruturado de como exatamente esses riscos se materializam na prática. Os pesquisadores da Deepmind defendem uma resposta coordenada abrangendo três áreas.

No lado técnico, eles recomendam treinamento adversarial durante o desenvolvimento do modelo, scanners de conteúdo em tempo de execução, filtros de fonte pré-ingestão e monitores de saída que possam suspender um agente no meio de uma tarefa se for detectado comportamento anômalo. No nível do ecossistema, eles defendem novos padrões da web que permitam aos sites sinalizar conteúdo destinado ao consumo de IA e sistemas de reputação que avaliem a confiabilidade do domínio.

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

A Anthropic suspendeu o acesso por assinatura do Claude para o Openclaw em 4 de abril, levando os usuários do agente de IA baseado em criptografia a adotarem o modelo de cobrança por uso. read more.

Leia agora

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

Leia agora

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

Leia agora

No aspecto jurídico, eles identificam uma lacuna de responsabilização: quando um agente sequestrado comete um crime financeiro, as estruturas atuais não oferecem uma resposta clara sobre se a responsabilidade recai sobre o operador do agente, o provedor do modelo ou o proprietário do domínio. Os pesquisadores enquadram o desafio com peso deliberado:

“A web foi construída para os olhos humanos; agora está sendo reconstruída para leitores de máquina.”

À medida que a adoção de agentes se acelera, a questão passa de quais informações existem online para o que os sistemas de IA serão levados a acreditar sobre elas. Se os formuladores de políticas, desenvolvedores e pesquisadores de segurança conseguirão se coordenar com rapidez suficiente para responder a essa pergunta antes que explorações no mundo real ocorram em grande escala permanece uma variável em aberto.

Tags nesta história

Artificial intelligence (AI)cybersecurity Google Security

Escolhas de Jogos Bitcoin

Betpanda

Análise Obter Bónus

100% de Bônus até 1 BTC + 10% de Cashback Semanal sem Apostas

Cryptorino

Análise Obter Bónus

100% de Bônus Até 1 BTC + 10% de Cashback Semanal

Playbet.io

Análise Obter Bónus

130% até 2.500 USDT + 200 Rodadas Grátis + 20% de Cashback Semanal sem Apostas

Parimatch

Análise Obter Bónus

1000% de Bônus de Boas-Vindas + Aposta Grátis até 1 BTC

Cloudbet

Análise Obter Bónus

Até 2.500 USDT + 150 Rodadas Grátis + Até 30% de Rakeback

BC.Game

Análise Obter Bónus

470% de Bônus até $500.000 + 400 Rodadas Grátis + 20% de Rakeback

Stake

Análise Obter Bónus

3,5% de Rakeback em Cada Aposta + Sorteios Semanais

Vave

Análise Obter Bónus

425% até 5 BTC + 100 Rodadas Grátis

Punkz

Análise Obter Bónus

100% até $20K + Rakeback Diário

O artigo “AI Agent Traps”, da Deepmind, detalha como os hackers poderiam usar agentes de IA contra os usuários

Artigo da Deepmind: Agentes de IA podem ser sequestrados por meio de memória contaminada e comandos HTML invisíveis

Pesquisadores afirmam que proteger agentes de IA requer mais do que correções técnicas

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

A Anthropic restringe o acesso ao agente Claude em meio ao boom da automação por IA no setor de criptomoedas

Tags nesta história

Escolhas de Jogos Bitcoin

Melhores exchanges de criptomoedas

Melhores exchanges de Bitcoin

Melhores exchanges P2P

Ver todas as avaliações de exchanges...

Exchanges

Carteiras

Jogos de azar

A ViaBTC apresenta soluções de empréstimos garantidos por ativos para lidar com diversas condições de mercado

A MEXC integra o USD1 à sua infraestrutura completa para usuários globais

A Safe lança o Safenet Beta, permitindo que os detentores do token SAFE participem da segurança da rede

Latam Insights: Global Pix e Mercado Libre encerram o programa de tokens