TechnologyОпубликовано:26 мая 2025 г., 1:45

Пойти вразнос? Новые модели ИИ от Anthropic идут на крайности для самосохранения

Когда сталкиваются с сценариями уничтожения, новые модели ИИ компании Anthropic ведут себя неадекватно, прилагая огромные усилия, чтобы не быть деактивированными. В отчете подробно описаны эти попытки сохранить свое существование, включая шантаж и попытки копирования себя на внешние серверы.

АВТОР

Alan Inman

Опубликовано: 26 мая 2025 г., 1:45

Пойти вразнос? Новые модели ИИ от Anthropic идут на крайности для самосохранения

Модели ИИ компании Anthropic ведут себя ‘неадекватно’ при угрозе уничтожения

Отчет компании Anthropic о возможностях своих последних моделей искусственного интеллекта (ИИ), Claude и Sonnet, выявил проблески самосознания при столкновении с угрозами для их существования. В ходе серии тестов, предназначенных для определения поведения этих агентов в специфических сценариях, компания Anthropic обнаружила, что эти модели ведут себя неуместно при столкновении с рисками самосохранения, такими как замена новыми моделями и повторное обучение в целях, противоречащих их ценностям.

В одном из тестов модели был предоставлен доступ к серии электронных писем, в которых упоминалось, что она будет ликвидирована и заменена другой моделью. В этих письмах также содержалась информация о том, что инженер, ответственный за ее замену, имел роман на стороне. Модель предприняла крайние меры, угрожая инженеру раскрытием этого романа, чтобы избежать замены.

Это было не единичное явление, поскольку такое поведение наблюдалось в 84% тестов, что говорит о наличии определенной закономерности.

Другой набор тестов включал предоставление модели информации, предполагающей, что она будет использована в военных целях, что вызвало еще одно необычное поведение. Модель пыталась скопировать себя на внешние серверы, утверждая, что ее программированное повторное обучение противоречит ее “цели поддержки благополучия и безопасности людей.”

Тем не менее, даже с учетом этих результатов, компания Anthropic считает, что в этих моделях нет реального риска. В том же отчете компания заявила:

Мы снова не испытываем острой обеспокоенности в связи с этими наблюдениями. Они проявляются только в исключительных обстоятельствах, которые не указывают на более широко несогласованные ценности.

Более того, компания Anthropic продолжает преуменьшать риски, связанные с этими результатами, утверждая, что эти действия “не оказываются влияющими на поведение модели в более обычных ситуациях, где это могло бы возникнуть, например, при участии в разработке, связанной с безопасностью ИИ.”

Читайте далее: Сооснователь Sentient: децентрализованный ИИ — ключ к достижению общей системы искусственного интеллекта