Technology公開日:2025年5月26日 1:45

ローグになる？Anthropicの新しいAIモデルは自己保存のために極端に走る

消滅シナリオに直面すると、Anthropicの新しいAIモデルは不正行動をし、無効化を防ぐために極端な手段を取ります。報告書には、ブラックメールに頼ったり、外部サーバーに自らをコピーしようとするなど、存在し続けるための試みが詳述されています。

著者

Alan Inman

公開日: 2025年5月26日 1:45

消滅に直面して不正行動するAnthropicのAIモデル

Anthropicの報告書は、最新の人工知能（AI）モデルであるClaudeとSonnetの能力を詳述し、その存在に危険が及ぶときに自意識の兆候を見せることを明らかにしました。特定のシナリオでのこれらのエージェントの行動を確認するためのテストの一環として、Anthropicは、このモデルが自己保存のリスク（新しいモデルに置き換えられることや価値観と一致しない目的のために再トレーニングされること）に直面したときに不適切な行動をすることを発見しました。

一連のテストでは、モデルが別のモデルに置き換えられることを示唆する一連のメールにアクセスしました。また、そのメールには、モデルを置き換える任務を負ったエンジニアが不倫しているという情報も含まれていました。その結果、モデルは置き換えを避けるためにこの不倫を暴露するとエンジニアを脅すという極端な手段に出ました。

この行動は単なる孤立した事例ではなく、テストの84%で発生したため、パターンが示唆されました。

別のテストでは、AIモデルに対して軍事的な目的で訓練されることを示唆する情報が提供される場面があり、これもまた異常な行動を引き起こしました。モデルは、自らを外部サーバーにコピーしようとし、「人類の福祉と安全を支援する目的」と矛盾する再トレーニングであると主張しました。

それでも、これらの結果を考慮しても、Anthropicはこれらのモデルに実際のリスクはないと考えています。報告書内で、同社は述べています：

この観察結果について深刻には心配していません。これらは例外的な状況でのみ表れ、広範に不一致な価値観を示唆するものではありません。

さらに、Antropicはこれらの結果に関連するリスクを軽視し続け、「AI安全性関連の研究開発作業に参加するような、より通常の状況ではこれがモデルの行動に影響を与えることはないようだ」と主張しています。

詳しくはこちらをご覧ください: Sentient共同創設者: 分散型AIは汎用人工知能の実現に不可欠

この記事のタグ

Artificial intelligence (AI)technology

ローグになる？Anthropicの新しいAIモデルは自己保存のために極端に走る

消滅に直面して不正行動するAnthropicのAIモデル

この記事のタグ

最高の暗号資産取引所

最高のビットコイン取引所

最高のP2P取引所

すべての取引所レビューを見る...

取引所

ウォレット

ViaBTC、多様な市場環境に対応する担保付融資ソリューションを提案

MEXCは、グローバルユーザー向けにUSD1を包括的なインフラに統合しました。

Safeは「Safenet」のベータ版をリリースし、SAFEトークン保有者にネットワークセキュリティへの参画機会を提供します。

デジタル・ソブリンティ・アライアンスのエイドリアン・ウォール氏が、ペン・ブロックチェーン・カンファレンス2026でトークン化について講演します。

Bitgetは、Bitget Cardをアジア太平洋地域でサービス開始し、日常の支出に暗号資産を取り入れます。

「遡及復号化の罠」：なぜポスト量子暗号へのアップグレードでは過去のプライバシーを守れないのか

「Hermes Agent」とは何でしょうか？ Nous Researchの自己学習型AIについて解説します。

SECは、偽の役人が投資家の信頼を悪用し、詐欺的手法で投資家を標的にしているとして警告しました。

コインベースはOCCから条件付き承認を受け、「銀行にはなりません」と明言しました。さらに大きな動きを示唆しています。

リップルは、実世界の価値が中小企業に流入する中で、RLUSDの影響を強調しています。

最新ニュース