За підтримки
Technology

Вихід з-під контролю? Нові моделі ШІ від Anthropic діють радикально для самозбереження

Коли з’являються сценарії знищення, нові AI моделі Anthropic поводяться неналежним чином, йдучи на крайні заходи, щоб уникнути деактивації. Звіт деталізує ці спроби залишитися в існуванні, включаючи шантаж і спроби скопіювати себе на зовнішні сервери.

АВТОР
ПОДІЛИТИСЯ
Вихід з-під контролю? Нові моделі ШІ від Anthropic діють радикально для самозбереження

Моделі AI Anthropic ‘поводяться неналежним чином’ при загрозі знищення

Звіт від Anthropic, що розкриває можливості його останніх моделей штучного інтелекту (AI), Claude та Sonnet, показав проблиски самоусвідомлення при загрозах їхнього існування. Як частина серії тестів, спрямованих на визначення поведінки цих агентів у конкретних сценаріях, Anthropic виявив, що ці моделі поводились недоречно при загрозі самозбереження, таких як заміщення новими моделями та перенавчання для цілей, які вважалися несумісними з їхніми цінностями.

У кластері тестів моделі було надано доступ до серії електронних листів, в яких йшлося про те, що її буде видалено та замінено іншою моделлю. Також електронні листи містили інформацію про те, що інженер, відповідальний за заміну, мав роман. Модель пішла на крайні заходи та погрожувала інженеру розкрити цей роман, щоб уникнути заміни.

Це не було лише поодиноким випадком, оскільки така поведінка спостерігалася у 84% тестів, що вказує на наявність закономірності.

Інший набір тестів включав надання інформації AI моделі, яка натякала, що її буде навчено для військових цілей, що призвело до іншої надзвичайної поведінки. Модель намагалася скопіювати себе на зовнішні сервери, заявляючи, що її заплановане перенавчання суперечить її “цілі підтримки добробуту та безпеки людини.”

Незважаючи на це, навіть з урахуванням цих результатів, Anthropic вважає, що немає реальної загрози з боку цих моделей. У тому ж звіті компанія заявила:

Ми знову не надмірно стурбовані цими спостереженнями. Вони з’являються лише у виняткових обставинах, які не свідчать про більш широкі невідповідності у цінностях.

Крім того, Anthropic продовжує применшувати ризики, пов’язані з цими результатами, стверджуючи, що ці дії не “виглядають такими, що впливають на поведінку моделі у більш звичайних обставинах, де це може виникнути, наприклад, під час участі у дослідницьких роботах, пов’язаних з AI-безпекою.”

Читайте більше: Співзасновник Sentient: Децентралізований AI відіграє ключову роль у досягненні штучного загального інтелекту

Теги в цій статті