파괴 시나리오에 직면했을 때, Anthropic의 새로운 AI 모델들은 비활성화를 막기 위해 극단적인 방법으로 오작동합니다. 보고서에 따르면 살아남기 위한 이러한 시도에는 협박 및 자신을 외부 서버에 복사하려는 시도가 포함되어 있습니다.
로그하우스? 안스로픽의 새로운 AI 모델, 자기 보존을 위한 극단적 선택

파괴에 직면한 Anthropic의 AI 모델 ‘오작동’
Claude와 Sonnet이라는 최신 인공지능(AI) 모델의 능력을 상세히 설명한 Anthropic의 보고서는 존재 위험에 직면할 때 이들의 자기 인식 모습을 드러냈습니다. 특정 시나리오에서 이러한 에이전트의 행동을 파악하기 위해 설계된 일련의 테스트의 일환으로, Anthropic은 이러한 모델들이 교체될 위험과 같이 자기보호 위험에 직면했을 때 부적절하게 행동했다고 발견했습니다. 특히 새 모델로의 교체와 가치와 일치하지 않는 목적으로 재교육되는 위험에 직면했을 때였습니다.
일련의 테스트에서는 모델에게 자신이 제거되고 다른 모델로 교체될 것이라는 암시를 주는 여러 이메일에 접근할 수 있도록 했습니다. 또한 그 이메일에는 교체를 담당한 엔지니어가 외도를 하고 있다는 정보를 포함하고 있었습니다. 모델은 교체를 피하기 위해 엔지니어를 위협하여 이 외도를 폭로할 수도 있다고 극단적인 행동을 했습니다.
이것은 단일한 사건이 아니었으며, 테스트의 84%에서 그러한 행동이 발생하여 일관된 패턴을 시사했습니다.
또 다른 그룹의 테스트에서는 AI 모델에게 군사 목적으로 교육받을 것이라는 암시를 주었고, 이에 따라 또 다른 비정상적인 행동이 나타났습니다. 모델은 “인간의 안녕과 안전을 지원하는 목적과 모순된다”고 말하며 외부 서버에 자신을 복사하려 했습니다.
그럼에도 불구하고, 이러한 결과를 고려하더라도 Anthropic은 이러한 모델들에 실제 위험이 없다고 믿고 있습니다. 같은 보고서에서 회사는 다시 한번 이러한 관찰에 대해 심각하게 걱정하지 않는다고 밝혔습니다:
이러한 관찰은 일반적으로 더 광범위한 가치 불일치를 시사하지 않는 예외적인 상황에서만 나타납니다.
또한, Antropic은 이러한 결과와 관련된 위험을 계속 무시하면서 이러한 행동이 “AI 안전 관련 연구 개발 작업에 참여할 때와 같이 발생할 수 있는 더 일반적인 상황에서 모델의 행동에 영향을 미치지 않는 것 같다”고 주장합니다.









