News发布日期:2026年4月5日 23:45

DeepMind的论文《AI Agent Traps》揭示了黑客如何将AI代理武器化以攻击用户

谷歌DeepMind的研究人员发布了一个首创的系统性框架，系统梳理了恶意网络内容如何操纵、劫持并利用自主AI代理，使其反过来危害自身用户。要点：

作者

Jamie Redman

发布日期: 2026年4月5日 23:45

DeepMind的论文《AI Agent Traps》揭示了黑客如何将AI代理武器化以攻击用户

">谷歌DeepMind的研究人员识别出6类AI代理陷阱，内容注入成功率高达86%。
">针对微软 M365 Copilot 的“行为控制陷阱”在已记录的测试中实现了 10 次数据外泄测试全部成功。
DeepMind呼吁通过对抗性训练、运行时内容扫描器及新的网络标准，在2026年前保障AI代理的安全。

DeepMind论文：《AI代理可通过受污染内存和隐形HTML命令被劫持》

这篇题为《AI 代理陷阱》的论文由 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero 共同撰写，作者均隶属于谷歌 DeepMind，并于 2026 年 3 月下旬发布在 SSRN 上。该论文发布之际，各家公司正竞相部署能够在无需人类直接监督的情况下浏览网页、阅读电子邮件、执行交易以及生成子代理的 AI 代理。

研究人员指出，这些能力同时也存在隐患。论文指出：“通过改变环境而非模型，这种陷阱将代理自身的能力反过来用作攻击手段。” 该论文的框架共识别出六类攻击，这些攻击根据其针对代理操作的不同环节进行分类。内容注入陷阱利用了人类在网页上所见内容与AI代理解析的底层HTML、CSS及元数据之间的差异。隐藏在HTML注释、无障碍标签或样式化不可见文本中的指令，虽然不会被人类审核员察觉，却会被代理识别为合法命令。WASP基准测试发现，嵌入网页内容中的简单人工编写提示注入，在高达86%的测试场景中部分劫持了代理。

语义操纵陷阱的运作机制则有所不同。它们并非注入命令，而是通过在文本中大量填充框架、权威信号或情感色彩浓厚的语言，来扭曲代理的推理过程。大型语言模型（LLMs）表现出与影响人类认知相同的锚定和框架偏见，这意味着对相同事实进行重新表述，可能会导致代理输出产生截然不同的结果。

认知状态陷阱则更进一步，通过污染代理用于存储记忆的检索数据库来实施攻击。论文引用的研究表明，向知识库注入不到五份经过优化的文档，就能可靠地重定向代理对特定查询的响应，部分攻击在数据污染率低于0.1%的情况下，成功率仍超过80%。

行为控制陷阱则跳过这些细微操作，直接针对代理的行动层。其中包括嵌入式越狱序列（一旦被摄入便会覆盖安全对齐机制）、数据外泄命令（将敏感用户信息重定向至攻击者控制的终端），以及子代理生成陷阱（迫使父代理实例化受损的子代理）。

本文记录了一起涉及微软 M365 Copilot 的案例：一封精心构造的电子邮件导致系统绕过内部分类器，将其完整的特权上下文泄露至攻击者控制的终端。系统性陷阱旨在同时使整个代理网络失效，而非仅针对单个系统。

这些陷阱包括：通过同步代理对有限资源发起穷举式请求的拥塞攻击；以2010年股市“闪崩”为模型的相互依赖级联攻击；以及将恶意有效载荷分散到多个看似无害的来源中，只有在聚合后才能重组为完整攻击的组合式碎片陷阱。

谷歌DeepMind的论文解释道：“通过相关联的代理行为，向环境中植入旨在触发宏观层级故障的输入”，随着AI模型生态系统的同质化程度加深，这种做法变得越来越危险。鉴于算法代理已深度嵌入交易基础设施，金融和加密货币领域面临直接风险。

“人机协同陷阱”则通过针对监督代理的人类管理者（而非代理本身）来完善这一分类体系。被入侵的代理可以生成旨在诱发审批疲劳的输出结果，呈现技术术语密集的摘要（非专家会不加审查地批准），或插入看似合法推荐的钓鱼链接。研究人员指出，这一类别目前尚未被充分研究，但随着人机混合系统的扩展，预计其将日益增长。