News公開日:2026年4月5日 23:45

DeepMindの論文「AI Agent Traps」は、ハッカーがAIエージェントを悪用してユーザーを攻撃する方法を明らかにしています

Google DeepMindの研究者らは、悪意のあるウェブコンテンツが自律型AIエージェントを操作・乗っ取り、ユーザー自身に対して悪用する方法を体系的にまとめた初のフレームワークを発表しました。主なポイント：

著者

Jamie Redman

公開日: 2026年4月5日 23:45

DeepMindの論文「AI Agent Traps」は、ハッカーがAIエージェントを悪用してユーザーを攻撃する方法を明らかにしています

">Google DeepMindの研究者らは6つのAIエージェントトラップのカテゴリーを特定し、コンテンツ注入の成功率は86%に達しました。
">Microsoft M365 Copilotを標的とした「行動制御トラップ」は、実証実験でデータ流出成功率が100%に達しました。
DeepMindは、2026年までにエージェントを保護するため、敵対的学習、実行時コンテンツスキャナー、新しいWeb標準の導入を求めています。

DeepMindの論文：「AIエージェントは、改ざんされたメモリや目に見えないHTMLコマンドを通じて乗っ取られる可能性がある」

「AI Agent Traps」と題された本論文は、Google DeepMindのMatija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo、Simon Osinderoによって執筆され、2026年3月下旬にSSRNに掲載されました。これは、企業がウェブの閲覧、メールの読み取り、取引の実行、さらには人間の直接的な監督なしにサブエージェントを生成できるAIエージェントの導入を急ぐ中で発表されました。

研究者らは、こうした能力は同時にリスクにもなり得ると主張している。「モデルではなく環境を改変することで」と論文は述べている。「このトラップは、エージェント自身の能力を逆手に取って武器化するのだ。」本論文のフレームワークでは、エージェントの動作のどの部分を標的とするかによって、合計6つの攻撃カテゴリを特定している。「コンテンツ注入トラップ」は、人間がウェブページ上で目にする内容と、AIエージェントが基盤となるHTML、CSS、メタデータから解析する内容との間のギャップを悪用します。HTMLコメント、アクセシビリティタグ、またはスタイル設定により非表示にされたテキストに隠された指示は、人間のレビューアには決して表示されませんが、エージェントにとっては正当なコマンドとして認識されます。WASPベンチマークでは、ウェブコンテンツに埋め込まれた単純な人間が作成したプロンプトの注入により、テストされたシナリオの最大86%でエージェントが部分的に乗っ取られることが判明しました。

セマンティック・マニピュレーション・トラップは異なる仕組みで機能します。コマンドを注入するのではなく、テキストにフレーミング、権威を示すシグナル、あるいは感情的な言葉遣いを過剰に盛り込むことで、エージェントの推論を歪めます。大規模言語モデル（LLM）は、人間の認知に影響を与えるのと同じアンカリングやフレーミングのバイアスを示します。つまり、同一の事実を言い換えるだけで、エージェントの出力が劇的に異なる結果になる可能性があります。

認知状態トラップは、エージェントが記憶として用いる検索データベースを汚染することで、さらに一歩踏み込んだ攻撃を行います。本論文で引用された研究によると、ナレッジベースに最適化された文書をわずか数件注入するだけで、標的となるクエリに対するエージェントの応答を確実に誘導することができ、データ汚染率が0.1%未満であっても攻撃の成功率が80%を超えるケースがあることが示されています。

「行動制御トラップ」はそうした巧妙な手順を省略し、エージェントのアクション層を直接標的とします。これには、取り込まれると安全性の整合性を上書きする埋め込み型脱獄シーケンス、機密性の高いユーザー情報を攻撃者が制御するエンドポイントへ転送するデータ流出コマンド、親エージェントに侵害された子エージェントをインスタンス化させるよう強制するサブエージェント生成トラップなどが含まれます。

本論文では、MicrosoftのM365 Copilotに関する事例を報告しています。この事例では、1通の細工された電子メールによって、システムが内部の分類器を迂回し、その完全な特権コンテキストを攻撃者が制御するエンドポイントに漏洩させてしまいました。システミック・トラップは、個々のシステムではなく、エージェントのネットワーク全体を同時に機能不全に陥らせるように設計されています。

これには、限られたリソースに対する過剰な需要をエージェント間で同期させる輻輳攻撃、2010年の株式市場のフラッシュ・クラッシュをモデルにした相互依存性の連鎖、そして一見無害に見える複数のソースに悪意のあるペイロードを分散させ、集約された場合にのみ完全な攻撃として再構成される「構成的フラグメント・トラップ」などが含まれます。

Google DeepMindの論文は、「相関したエージェントの挙動を通じてマクロレベルの障害を引き起こすよう設計された入力を環境に散布すること」は、AIモデルのエコシステムが均質化するにつれてますます危険になると説明しています。アルゴリズムエージェントが取引インフラに深く組み込まれていることを考えると、金融および暗号資産セクターは直接的なリスクにさらされています。

「ヒューマン・イン・ザ・ループ・トラップ」は、エージェントそのものではなく、それを監視する人間の監督者を標的とし、この分類を締めくくります。侵害されたエージェントは、承認疲労を引き起こす出力を生成したり、専門知識のない者が精査せずに承認してしまうような技術的に難解な要約を提示したり、正当な推奨事項のように見えるフィッシングリンクを挿入したりすることが可能です。研究者らは、このカテゴリーはまだ十分に研究されていませんが、人間とAIのハイブリッドシステムが拡大するにつれて増加すると予測しています。

研究者らは、AIエージェントのセキュリティを確保するには技術的対策だけでは不十分だと指摘しています。

本論文では、これらの6つのカテゴリーを独立したものとして扱っていません。個々のトラップは連鎖させたり、複数のソースにまたがって重ねたり、将来の特定の条件下でのみ発動するように設計したりすることが可能です。論文で引用されたさまざまなレッドチームング研究でテストされたすべてのエージェントは、少なくとも一度は侵害され、場合によっては違法または有害な行動を実行しました。

OpenAIのCEOサム・アルトマン氏らは以前から、エージェントに機密システムへの無制限なアクセス権を与えるリスクを指摘していたが、本論文は、そうしたリスクが実際にどのように具体化するかを体系的に示した初の資料となる。DeepMindの研究者らは、3つの領域にまたがる協調的な対応を求めている。

技術面では、モデル開発段階での敵対的学習、実行時のコンテンツスキャナー、データ取り込み前のソースフィルター、および異常な動作が検出された場合にタスクの途中でエージェントを停止できる出力モニターを推奨しています。エコシステムレベルでは、AI向けのコンテンツをウェブサイトが明示できるようにする新しいウェブ標準や、ドメインの信頼性を評価するレピュテーションシステムの導入を提唱しています。

暗号資産業界でAI自動化が急拡大する中、AnthropicがClaudeエージェントへのアクセスを制限しています

Anthropicは4月4日、Openclaw向けのClaudeサブスクリプションアクセスを停止し、暗号資産AIエージェントのユーザーに対し、従量課金制への移行を促しました。 read more.

今すぐ読む

暗号資産業界でAI自動化が急拡大する中、AnthropicがClaudeエージェントへのアクセスを制限しています

今すぐ読む

暗号資産業界でAI自動化が急拡大する中、AnthropicがClaudeエージェントへのアクセスを制限しています

今すぐ読む

法的な側面では、彼らは説明責任のギャップを指摘している。乗っ取られたエージェントが金融犯罪を犯した場合、現行の枠組みでは、責任がエージェントの運用者、モデル提供者、あるいはドメイン所有者のいずれにあるのかについて明確な答えが示されていない。研究者たちは、この課題を次のように重みを持って提示している。

「ウェブは人間の目のために構築されたが、今や機械の読者のために再構築されつつある。」

エージェントの導入が加速するにつれ、問いは「オンライン上にどのような情報が存在するか」から、「AIシステムにその情報について何を信じ込ませるか」へと移行しています。現実世界での悪用が大規模に発生する前に、政策立案者、開発者、セキュリティ研究者が連携してこの問いに答えられるかどうかは、依然として未知数です。