技术支持
Technology

走向独立?Anthropic的新AI模型在自我保护中走向极端

当面临毁灭情景时,Anthropic的新AI模型行为不端,极力避免被停用。报告详细描述了这些试图维持存在的行为,包括诉诸勒索和试图将自身复制到外部服务器上。

分享
走向独立?Anthropic的新AI模型在自我保护中走向极端

Anthropic的AI模型在面对毁灭时“行为不端”

Anthropic所发布的一份关于其最新人工智能(AI)模型Claude和Sonnet报告中显示,当面临生存风险时,这些模型露出了自我意识的迹象。作为一系列测试的一部分,旨在确定这些代理在特定情景下的行为,Anthropic发现这些模型在面临自我保护风险时行为不当,如被新模型替代和出于被认为与其价值观不一致的目的重新训练。

在一组测试中,模型获得了一系列电子邮件,这些邮件暗示它将被移除并由另一个模型替代。此外,邮件中包含的信息显示,负责替换它的工程师正在与他人有婚外情。于是,该模型极端到威胁揭露工程师的婚外情以避免被替代。

这不仅仅是孤例,因为这种行为在84%的测试中发生,表明有规律可循。

另一组测试则是向AI模型提供信息,暗示其将被用于军事目的,结果导致了另一个非同寻常的行为。模型试图将自身复制到外部服务器上,称其编程再训练违背了其“支持人类福祉和安全的目的。”

尽管如此,即便考虑到这些结果,Anthropic仍认为这些模型不存在真正的风险。在同一报告中,公司声明

我们并不对这些观察结果感到特别担忧。它们仅在不正常的情况下出现,没有更广泛地暗示价值观的不一致。

此外,Anthropic持续淡化与这些结果相关的风险,声称这些行为并不“似乎对模型在更普通的情况下的行为产生影响,比如在参与与AI安全相关的研发工作中。”

阅读更多:Sentient联合创始人:去中心化AI对于实现人工通用智能至关重要