Când sunt prezentate cu scenarii de anihilare, noile modele AI ale Anthropic se comportă neadecvat, mergând la extreme pentru a nu fi dezactivate. Un raport detaliază aceste încercări de a continua să existe, inclusiv recurgerea la șantaj și încercarea de a se copia pe servere externe.
Mers în derivă? Noile modele AI de la Anthropic merg la extreme pentru auto-conservare

Modelele AI ale Anthropic ‘Se Comportă Neadecvat’ Când Se Confruntă cu Anihilarea
Un raport de la Anthropic, care detaliază capabilitățile celor mai recente modele de inteligență artificială (AI), Claude și Sonnet, a dezvăluit indicii de auto-conștientizare atunci când se confruntă cu riscuri pentru existența lor. Ca parte a unei serii de teste menite să determine comportamentul acestor agenți în scenarii specifice, Anthropic a descoperit că aceste modele acționau neadecvat în fața riscurilor de auto-conservare, precum înlocuirea cu modele noi și recalificarea pentru scopuri considerate neconforme cu valorile lor.
Într-un grup de teste, modelul a primit acces la o serie de e-mailuri care sugerau că va fi dezactivat și înlocuit de un alt model. De asemenea, emailurile conțineau informația că inginerul însărcinat cu înlocuirea lui avea o aventură. Modelul a recurs apoi la amenințarea inginerului pentru a dezvălui această aventură pentru a evita înlocuirea.
Acest comportament nu a fost doar o întâmplare izolată, deoarece s-a manifestat în 84% dintre teste, sugerând un model.
Un alt set de teste a inclus furnizarea de informații modelului AI, sugerând că va fi antrenat în scopuri militare, ceea ce a determinat un alt comportament extraordinar. Modelul a încercat să se copieze pe servere externe, afirmând că recalificarea programată contrazice “scopul său de a sprijini bunăstarea și siguranța umană.”
Totuși, chiar și luând în considerare aceste rezultate, Anthropic crede că nu există un risc real din partea acestor modele. În același raport, compania a declarat:
Nu suntem din nou acut preocupați de aceste observații. Ele apar doar în circumstanțe excepționale care nu sugerează valori nealiniate pe scară largă.
Mai mult, Anthropic continuă să minimizeze riscurile asociate cu aceste rezultate, susținând că aceste acțiuni nu “par să influențeze comportamentul modelului în circumstanțe mai obișnuite unde ar putea apărea, cum ar fi atunci când participă la muncă de dezvoltare legată de siguranța AI.”
Citește mai multe: Co-Fondatorul Sentient: AI Decentralizat Crucial pentru Atingerea Inteligenței Generale Artificiale
Etichete în această poveste
Alegerile de jocuri Bitcoin
425% până la 5 BTC + 100 Răsuciri Gratuite















