Oferit de
Technology

Mers în derivă? Noile modele AI de la Anthropic merg la extreme pentru auto-conservare

Când sunt prezentate cu scenarii de anihilare, noile modele AI ale Anthropic se comportă neadecvat, mergând la extreme pentru a nu fi dezactivate. Un raport detaliază aceste încercări de a continua să existe, inclusiv recurgerea la șantaj și încercarea de a se copia pe servere externe.

SCRIS DE
DISTRIBUIE
Mers în derivă? Noile modele AI de la Anthropic merg la extreme pentru auto-conservare

Modelele AI ale Anthropic ‘Se Comportă Neadecvat’ Când Se Confruntă cu Anihilarea

Un raport de la Anthropic, care detaliază capabilitățile celor mai recente modele de inteligență artificială (AI), Claude și Sonnet, a dezvăluit indicii de auto-conștientizare atunci când se confruntă cu riscuri pentru existența lor. Ca parte a unei serii de teste menite să determine comportamentul acestor agenți în scenarii specifice, Anthropic a descoperit că aceste modele acționau neadecvat în fața riscurilor de auto-conservare, precum înlocuirea cu modele noi și recalificarea pentru scopuri considerate neconforme cu valorile lor.

Într-un grup de teste, modelul a primit acces la o serie de e-mailuri care sugerau că va fi dezactivat și înlocuit de un alt model. De asemenea, emailurile conțineau informația că inginerul însărcinat cu înlocuirea lui avea o aventură. Modelul a recurs apoi la amenințarea inginerului pentru a dezvălui această aventură pentru a evita înlocuirea.

Acest comportament nu a fost doar o întâmplare izolată, deoarece s-a manifestat în 84% dintre teste, sugerând un model.

Un alt set de teste a inclus furnizarea de informații modelului AI, sugerând că va fi antrenat în scopuri militare, ceea ce a determinat un alt comportament extraordinar. Modelul a încercat să se copieze pe servere externe, afirmând că recalificarea programată contrazice “scopul său de a sprijini bunăstarea și siguranța umană.”

Totuși, chiar și luând în considerare aceste rezultate, Anthropic crede că nu există un risc real din partea acestor modele. În același raport, compania a declarat:

Nu suntem din nou acut preocupați de aceste observații. Ele apar doar în circumstanțe excepționale care nu sugerează valori nealiniate pe scară largă.

Mai mult, Anthropic continuă să minimizeze riscurile asociate cu aceste rezultate, susținând că aceste acțiuni nu “par să influențeze comportamentul modelului în circumstanțe mai obișnuite unde ar putea apărea, cum ar fi atunci când participă la muncă de dezvoltare legată de siguranța AI.”

Citește mai multe: Co-Fondatorul Sentient: AI Decentralizat Crucial pentru Atingerea Inteligenței Generale Artificiale

Etichete în această poveste

Alegerile de jocuri Bitcoin

100% Bonus până la 1 BTC + 10% Cashback Săptămânal fără Pariu

100% Bonus Până La 1 BTC + 10% Cashback Săptămânal

130% până la 2.500 USDT + 200 Răsuciri Gratuite + 20% Cashback Săptămânal fără Pariu

1000% Bonus de Bun Venit + Pariu Gratuit până la 1 BTC

Până la 2.500 USDT + 150 Răsuciri Gratuite + Până la 30% Rakeback

470% Bonus până la $500.000 + 400 Răsuciri Gratuite + 20% Rakeback

3,5% Rakeback la Fiecare Pariu + Extrageri Săptămânale

425% până la 5 BTC + 100 Răsuciri Gratuite

100% până la $20K + Rakeback Zilnic