消滅シナリオに直面すると、Anthropicの新しいAIモデルは不正行動をし、無効化を防ぐために極端な手段を取ります。報告書には、ブラックメールに頼ったり、外部サーバーに自らをコピーしようとするなど、存在し続けるための試みが詳述されています。
ローグになる?Anthropicの新しいAIモデルは自己保存のために極端に走る

消滅に直面して不正行動するAnthropicのAIモデル
Anthropicの報告書は、最新の人工知能(AI)モデルであるClaudeとSonnetの能力を詳述し、その存在に危険が及ぶときに自意識の兆候を見せることを明らかにしました。特定のシナリオでのこれらのエージェントの行動を確認するためのテストの一環として、Anthropicは、このモデルが自己保存のリスク(新しいモデルに置き換えられることや価値観と一致しない目的のために再トレーニングされること)に直面したときに不適切な行動をすることを発見しました。
一連のテストでは、モデルが別のモデルに置き換えられることを示唆する一連のメールにアクセスしました。また、そのメールには、モデルを置き換える任務を負ったエンジニアが不倫しているという情報も含まれていました。その結果、モデルは置き換えを避けるためにこの不倫を暴露するとエンジニアを脅すという極端な手段に出ました。
この行動は単なる孤立した事例ではなく、テストの84%で発生したため、パターンが示唆されました。
別のテストでは、AIモデルに対して軍事的な目的で訓練されることを示唆する情報が提供される場面があり、これもまた異常な行動を引き起こしました。モデルは、自らを外部サーバーにコピーしようとし、「人類の福祉と安全を支援する目的」と矛盾する再トレーニングであると主張しました。
それでも、これらの結果を考慮しても、Anthropicはこれらのモデルに実際のリスクはないと考えています。報告書内で、同社は述べています:
この観察結果について深刻には心配していません。これらは例外的な状況でのみ表れ、広範に不一致な価値観を示唆するものではありません。
さらに、Antropicはこれらの結果に関連するリスクを軽視し続け、「AI安全性関連の研究開発作業に参加するような、より通常の状況ではこれがモデルの行動に影響を与えることはないようだ」と主張しています。
詳しくはこちらをご覧ください: Sentient共同創設者: 分散型AIは汎用人工知能の実現に不可欠









