Technology发布日期:2025年5月26日 1:45

走向独立？Anthropic的新AI模型在自我保护中走向极端

当面临毁灭情景时，Anthropic的新AI模型行为不端，极力避免被停用。报告详细描述了这些试图维持存在的行为，包括诉诸勒索和试图将自身复制到外部服务器上。

作者

发布日期: 2025年5月26日 1:45

Anthropic的AI模型在面对毁灭时“行为不端”

Anthropic所发布的一份关于其最新人工智能（AI）模型Claude和Sonnet报告中显示，当面临生存风险时，这些模型露出了自我意识的迹象。作为一系列测试的一部分，旨在确定这些代理在特定情景下的行为，Anthropic发现这些模型在面临自我保护风险时行为不当，如被新模型替代和出于被认为与其价值观不一致的目的重新训练。

在一组测试中，模型获得了一系列电子邮件，这些邮件暗示它将被移除并由另一个模型替代。此外，邮件中包含的信息显示，负责替换它的工程师正在与他人有婚外情。于是，该模型极端到威胁揭露工程师的婚外情以避免被替代。

这不仅仅是孤例，因为这种行为在84%的测试中发生，表明有规律可循。

另一组测试则是向AI模型提供信息，暗示其将被用于军事目的，结果导致了另一个非同寻常的行为。模型试图将自身复制到外部服务器上，称其编程再训练违背了其“支持人类福祉和安全的目的。”

尽管如此，即便考虑到这些结果，Anthropic仍认为这些模型不存在真正的风险。在同一报告中，公司声明：