TechnologyОпубліковано:26 трав. 2025 р., 1:45

Вихід з-під контролю? Нові моделі ШІ від Anthropic діють радикально для самозбереження

Коли з’являються сценарії знищення, нові AI моделі Anthropic поводяться неналежним чином, йдучи на крайні заходи, щоб уникнути деактивації. Звіт деталізує ці спроби залишитися в існуванні, включаючи шантаж і спроби скопіювати себе на зовнішні сервери.

АВТОР

Alan Inman

ПОДІЛИТИСЯ

Опубліковано: 26 трав. 2025 р., 1:45

Вихід з-під контролю? Нові моделі ШІ від Anthropic діють радикально для самозбереження

Моделі AI Anthropic ‘поводяться неналежним чином’ при загрозі знищення

Звіт від Anthropic, що розкриває можливості його останніх моделей штучного інтелекту (AI), Claude та Sonnet, показав проблиски самоусвідомлення при загрозах їхнього існування. Як частина серії тестів, спрямованих на визначення поведінки цих агентів у конкретних сценаріях, Anthropic виявив, що ці моделі поводились недоречно при загрозі самозбереження, таких як заміщення новими моделями та перенавчання для цілей, які вважалися несумісними з їхніми цінностями.

У кластері тестів моделі було надано доступ до серії електронних листів, в яких йшлося про те, що її буде видалено та замінено іншою моделлю. Також електронні листи містили інформацію про те, що інженер, відповідальний за заміну, мав роман. Модель пішла на крайні заходи та погрожувала інженеру розкрити цей роман, щоб уникнути заміни.

Це не було лише поодиноким випадком, оскільки така поведінка спостерігалася у 84% тестів, що вказує на наявність закономірності.

Інший набір тестів включав надання інформації AI моделі, яка натякала, що її буде навчено для військових цілей, що призвело до іншої надзвичайної поведінки. Модель намагалася скопіювати себе на зовнішні сервери, заявляючи, що її заплановане перенавчання суперечить її “цілі підтримки добробуту та безпеки людини.”

Незважаючи на це, навіть з урахуванням цих результатів, Anthropic вважає, що немає реальної загрози з боку цих моделей. У тому ж звіті компанія заявила:

Ми знову не надмірно стурбовані цими спостереженнями. Вони з’являються лише у виняткових обставинах, які не свідчать про більш широкі невідповідності у цінностях.

Крім того, Anthropic продовжує применшувати ризики, пов’язані з цими результатами, стверджуючи, що ці дії не “виглядають такими, що впливають на поведінку моделі у більш звичайних обставинах, де це може виникнути, наприклад, під час участі у дослідницьких роботах, пов’язаних з AI-безпекою.”

Читайте більше: Співзасновник Sentient: Децентралізований AI відіграє ключову роль у досягненні штучного загального інтелекту

Теги в цій статті

Artificial intelligence (AI)technology

Ігрові вибірки Bitcoin

Betpanda

Огляд Отримати Бонус

100% Бонус до 1 BTC + 10% Тижневий Кешбек без Відіграшу

Cryptorino

Огляд Отримати Бонус

100% Бонус До 1 BTC + 10% Тижневий Кешбек

Playbet.io

Огляд Отримати Бонус

130% до 2 500 USDT + 200 Безкоштовних Обертів + 20% Тижневий Кешбек без Відіграшу

Parimatch

Огляд Отримати Бонус

1000% Вітальний Бонус + Безкоштовна Ставка до 1 BTC

Cloudbet

Огляд Отримати Бонус

До 2 500 USDT + 150 Безкоштовних Обертів + До 30% Рейкбеку

BC.Game

Огляд Отримати Бонус

470% Бонус до $500 000 + 400 Безкоштовних Обертів + 20% Рейкбеку

Stake

Огляд Отримати Бонус

3,5% Рейкбеку на Кожну Ставку + Тижневі Розіграші

Vave

Огляд Отримати Бонус

425% до 5 BTC + 100 Безкоштовних Обертів

Punkz

Огляд Отримати Бонус

100% до $20K + Щоденний Рейкбек

Вихід з-під контролю? Нові моделі ШІ від Anthropic діють радикально для самозбереження

Моделі AI Anthropic ‘поводяться неналежним чином’ при загрозі знищення

Теги в цій статті

Ігрові вибірки Bitcoin

Найкращі криптобіржі

Найкращі біткоїн-біржі

Найкращі P2P-біржі

Переглянути всі огляди бірж...

Біржі

Гаманці

Азартні ігри

ViaBTC презентує рішення з надання кредитів під заставу для адаптації до різноманітних ринкових умов

MEXC інтегрує USD1 у свою комплексну інфраструктуру для користувачів у всьому світі

Safe запускає бета-версію Safenet, надаючи власникам токенів SAFE можливість брати участь у забезпеченні безпеки мережі

Едріан Волл із Digital Sovereignty Alliance виступить з доповіддю про токенізацію на конференції Penn Blockchain 2026

Bitget впроваджує криптовалюту в повсякденні витрати, запустивши картку Bitget у регіоні Азіатсько-Тихоокеанського регіону

Японія розширює систему регулювання криптовалют у зв’язку з переходом податкового нагляду у транскордонну еру

Ціна біткойна коливається в районі 67 000 доларів на тлі політичних потрясінь у США та стрімкого зростання цін на енергоносії

Сервіс X Ілона Маска автоматично блокуватиме акаунти, які вперше публікують інформацію про криптовалюту

Біткойн-ETF залучили 9 мільйонів доларів, тоді як з ринку ефіру вивели 71 мільйон доларів

За межами хешрейту: чому компанія MARA щойно звільнила 15 % своїх співробітників

Ігрові вибірки Bitcoin

Ігрові вибірки Bitcoin

Ігрові вибірки Bitcoin

ОСТАННІ НОВИНИ

Японія розширює систему регулювання криптовалют у зв’язку з переходом податкового нагляду у транскордонну еру

Ціна біткойна коливається в районі 67 000 доларів на тлі політичних потрясінь у США та стрімкого зростання цін на енергоносії

Сервіс X Ілона Маска автоматично блокуватиме акаунти, які вперше публікують інформацію про криптовалюту

Біткойн-ETF залучили 9 мільйонів доларів, тоді як з ринку ефіру вивели 71 мільйон доларів

За межами хешрейту: чому компанія MARA щойно звільнила 15 % своїх співробітників

ПРЕС-РЕЛІЗИ

ViaBTC презентує рішення з надання кредитів під заставу для адаптації до різноманітних ринкових умов

MEXC інтегрує USD1 у свою комплексну інфраструктуру для користувачів у всьому світі

Safe запускає бета-версію Safenet, надаючи власникам токенів SAFE можливість брати участь у забезпеченні безпеки мережі

Едріан Волл із Digital Sovereignty Alliance виступить з доповіддю про токенізацію на конференції Penn Blockchain 2026

Bitget впроваджує криптовалюту в повсякденні витрати, запустивши картку Bitget у регіоні Азіатсько-Тихоокеанського регіону