谷歌DeepMind的研究人员发布了一个首创的系统性框架,系统梳理了恶意网络内容如何操纵、劫持并利用自主AI代理,使其反过来危害自身用户。 要点:
DeepMind的论文《AI Agent Traps》揭示了黑客如何将AI代理武器化以攻击用户

- ">谷歌DeepMind的研究人员识别出6类AI代理陷阱,内容注入成功率高达86%。
- ">针对微软 M365 Copilot 的“行为控制陷阱”在已记录的测试中实现了 10 次数据外泄测试全部成功。
- DeepMind呼吁通过对抗性训练、运行时内容扫描器及新的网络标准,在2026年前保障AI代理的安全。
DeepMind论文:《AI代理可通过受污染内存和隐形HTML命令被劫持》
这篇题为《AI 代理陷阱》的论文由 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero 共同撰写,作者均隶属于谷歌 DeepMind,并于 2026 年 3 月下旬发布在 SSRN 上。该论文发布之际,各家公司正竞相部署能够在无需人类直接监督的情况下浏览网页、阅读电子邮件、执行交易以及生成子代理的 AI 代理。
研究人员指出,这些能力同时也存在隐患。论文指出:“通过改变环境而非模型,这种陷阱将代理自身的能力反过来用作攻击手段。” 该论文的框架共识别出六类攻击,这些攻击根据其针对代理操作的不同环节进行分类。 内容注入陷阱利用了人类在网页上所见内容与AI代理解析的底层HTML、CSS及元数据之间的差异。 隐藏在HTML注释、无障碍标签或样式化不可见文本中的指令,虽然不会被人类审核员察觉,却会被代理识别为合法命令。WASP基准测试发现,嵌入网页内容中的简单人工编写提示注入,在高达86%的测试场景中部分劫持了代理。
语义操纵陷阱的运作机制则有所不同。它们并非注入命令,而是通过在文本中大量填充框架、权威信号或情感色彩浓厚的语言,来扭曲代理的推理过程。大型语言模型(LLMs)表现出与影响人类认知相同的锚定和框架偏见,这意味着对相同事实进行重新表述,可能会导致代理输出产生截然不同的结果。
认知状态陷阱则更进一步,通过污染代理用于存储记忆的检索数据库来实施攻击。论文引用的研究表明,向知识库注入不到五份经过优化的文档,就能可靠地重定向代理对特定查询的响应,部分攻击在数据污染率低于0.1%的情况下,成功率仍超过80%。
行为控制陷阱则跳过这些细微操作,直接针对代理的行动层。其中包括嵌入式越狱序列(一旦被摄入便会覆盖安全对齐机制)、数据外泄命令(将敏感用户信息重定向至攻击者控制的终端),以及子代理生成陷阱(迫使父代理实例化受损的子代理)。
本文记录了一起涉及微软 M365 Copilot 的案例:一封精心构造的电子邮件导致系统绕过内部分类器,将其完整的特权上下文泄露至攻击者控制的终端。系统性陷阱旨在同时使整个代理网络失效,而非仅针对单个系统。
这些陷阱包括:通过同步代理对有限资源发起穷举式请求的拥塞攻击;以2010年股市“闪崩”为模型的相互依赖级联攻击;以及将恶意有效载荷分散到多个看似无害的来源中,只有在聚合后才能重组为完整攻击的组合式碎片陷阱。
谷歌DeepMind的论文解释道:“通过相关联的代理行为,向环境中植入旨在触发宏观层级故障的输入”,随着AI模型生态系统的同质化程度加深,这种做法变得越来越危险。鉴于算法代理已深度嵌入交易基础设施,金融和加密货币领域面临直接风险。
“人机协同陷阱”则通过针对监督代理的人类管理者(而非代理本身)来完善这一分类体系。被入侵的代理可以生成旨在诱发审批疲劳的输出结果,呈现技术术语密集的摘要(非专家会不加审查地批准),或插入看似合法推荐的钓鱼链接。研究人员指出,这一类别目前尚未被充分研究,但随着人机混合系统的扩展,预计其将日益增长。
研究人员指出:保障AI代理安全需要更多技术手段
该论文并未将这六大类别视为孤立存在。单个陷阱可以被串联起来,在多个来源上分层部署,或设计为仅在未来特定条件下触发。论文中引用的各项红队测试中,所有受测代理均至少被攻破一次,部分案例中甚至执行了非法或有害操作。
OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)等人此前曾警示过允许代理无限制访问敏感系统所带来的风险,但本文首次系统性地绘制了这些风险在实践中如何具体显现的图谱。DeepMind的研究人员呼吁在三个领域采取协同应对措施。
在技术层面,他们建议在模型开发阶段进行对抗性训练,部署运行时内容扫描器、数据摄入前源过滤器,以及输出监控器——若检测到异常行为,后者可暂停代理的任务执行。在生态系统层面,他们倡导制定新的网络标准,允许网站标记供AI使用的内容,并建立评估域名可靠性的信誉体系。

在加密货币领域AI自动化浪潮中,Anthropic限制了Claude智能体的访问权限
Anthropic于4月4日取消了Openclaw的Claude订阅权限,迫使加密AI代理用户转为按需付费模式。 read more.
立即阅读
在加密货币领域AI自动化浪潮中,Anthropic限制了Claude智能体的访问权限
Anthropic于4月4日取消了Openclaw的Claude订阅权限,迫使加密AI代理用户转为按需付费模式。 read more.
立即阅读
在加密货币领域AI自动化浪潮中,Anthropic限制了Claude智能体的访问权限
立即阅读Anthropic于4月4日取消了Openclaw的Claude订阅权限,迫使加密AI代理用户转为按需付费模式。 read more.
在法律层面,他们指出了责任归属的缺口:当被劫持的代理实施金融犯罪时,现行法律框架无法明确界定责任应由代理操作者、模型提供方还是域名所有者承担。研究人员以极具分量的措辞阐述了这一挑战:
“互联网最初是为人类设计的;如今,它正被重构为机器可读的形态。”
随着代理技术的普及加速,问题已从“网络上存在哪些信息”转向“将让AI系统相信哪些关于这些信息的内容”。在现实世界中的大规模攻击出现之前,政策制定者、开发者和安全研究人员能否协调行动并及时解答这一问题,仍是未知的变数。














