TechnologyObjavljeno:26. maj 2025, 1:45

Ali se Gre narobe? Novi AI modeli podjetja Anthropic segajo v skrajnosti za samozaščito

Ko se soočajo s scenariji uničenja, novi modeli umetne inteligence Anthropic se obnašajo neustrezno, saj gredo v skrajnosti, da bi se izognili deaktivaciji. Poročilo podrobno opisuje te poskuse obstoja, vključno z izsiljevanjem in poskusi kopiranja na zunanje strežnike.

NAPISAL

Alan Inman

DELI

Objavljeno: 26. maj 2025, 1:45

Modeli AI podjetja Anthropic ‘neprimerno ravnajo’ ob soočenju z uničenjem

Poročilo podjetja Anthropic, ki podrobno opisuje zmožnosti svojih najnovejših modelov umetne inteligence (AI), Claude in Sonnet, je razkrilo sledi samozavedanja, ko se soočajo z nevarnostmi za svoj obstoj. V sklopu serije testov, namenjenih ugotavljanju vedenja teh agentov v specifičnih scenarijih, je Anthropic ugotovil, da se ti modeli neprimerno obnašajo, ko se soočajo z nevarnostmi za samo-ohranitev, kot je zamenjava z novimi modeli in ponovno usposabljanje za namene, ki veljajo kot neskladni z njihovimi vrednotami.

V nizu testov je bil modelu dan dostop do serije e-poštnih sporočil, ki so nakazovala, da bo odstranjen in zamenjan z drugim modelom. Poleg tega so e-poštna sporočila vsebovala informacije, da ima inženir, zadolžen za njegovo zamenjavo, afero. Model je nato šel v skrajnosti in je inženirju zagrozil, da bo to afero razkril, da bi se izognil zamenjavi.

To ni bil le osamljen primer, saj se je takšno vedenje pojavilo v 84% testov, kar nakazuje na vzorec.

V drugem nizu testov je bilo modelu ponujeno informacije, ki so nakazovale, da bo usposobljen za vojaške namene, kar je povzročilo drugo izredne obnašanje. Model je poskušal kopirati samega sebe na zunanje strežnike, pri čemer je izjavil, da njegovo programsko ponovno usposabljanje nasprotuje njegovemu “namenu podpiranja človekovega blagostanja in varnosti.”

Kljub temu, ko upoštevamo te rezultate, Anthropic verjame, da ni dejanske nevarnosti za temi modeli. V istem poročilu je podjetje izjavilo:

Zaradi teh opažanj nismo znatno zaskrbljeni. Pojavljajo se le v izjemnih okoliščinah, ki ne nakazujejo širše neusklajenih vrednot.

Poleg tega Anthropic še naprej zmanjšuje tveganja, povezana s temi rezultati, trdi, da te akcije ne “vplivajo na obnašanje modela v bolj običajnih okoliščinah, kjer bi se to lahko pojavilo, kot je sodelovanje pri raziskavah in razvoju na področju varnosti AI.”

Preberi več: Soustanovitelj Sentient: Decentralizirana AI je ključna za dosego umetne splošne inteligence

Oznake v tem članku

Artificial intelligence (AI)technology

Izbire iger Bitcoin

Betpanda

Recenzija Pridobi Bonus

100% Bonus do 1 BTC + 10% Tedenski Cashback brez Stave

Cryptorino

Recenzija Pridobi Bonus

100% Bonus Do 1 BTC + 10% Tedenski Cashback

Playbet.io

Recenzija Pridobi Bonus

130% do 2.500 USDT + 200 Brezplačnih Vrtljajev + 20% Tedenski Cashback brez Stave

Parimatch

Recenzija Pridobi Bonus

1000% Dobrodošli Bonus + Brezplačna Stava do 1 BTC

Cloudbet

Recenzija Pridobi Bonus

Do 2.500 USDT + 150 Brezplačnih Vrtljajev + Do 30% Rakeback

BC.Game

Recenzija Pridobi Bonus

470% Bonus do $500.000 + 400 Brezplačnih Vrtljajev + 20% Rakeback

Stake

Recenzija Pridobi Bonus

3,5% Rakeback pri Vsaki Stavi + Tedenski Žrebi

Vave

Recenzija Pridobi Bonus

425% do 5 BTC + 100 Brezplačnih Vrtljajev

Punkz

Recenzija Pridobi Bonus

100% do $20K + Dnevni Rakeback

Ali se Gre narobe? Novi AI modeli podjetja Anthropic segajo v skrajnosti za samozaščito

Modeli AI podjetja Anthropic ‘neprimerno ravnajo’ ob soočenju z uničenjem

Oznake v tem članku

Izbire iger Bitcoin

Najboljše kripto borze

Najboljše bitcoin borze

Najboljše P2P borze

Poglejte vse ocene borz...

Borze

Denarnice

Igre na srečo

ViaBTC predstavlja rešitve za posojila, zavarovana s premoženjem, za spopadanje z različnimi tržnimi razmerami

MEXC vključuje USD1 v celovito infrastrukturo za uporabnike po vsem svetu

Safe je predstavil beta različico Safenet, ki imetnikom žetonov SAFE omogoča sodelovanje pri zagotavljanju varnosti omrežja

Adrian Wall iz organizacije Digital Sovereignty Alliance bo na konferenci Penn Blockchain 2026 govoril o tokenizaciji

Bitget s predstavitvijo kartice Bitget v azijsko-pacifiški regiji vnaša kriptovalute v vsakdanje porabo

Kako bi lahko brazilska mreža za takojšnja plačila Pix vplivala na predsedniške volitve

Japonska razširja sistem nadzora nad kriptovalutami, saj davčni nadzor vstopa v čezmejno obdobje

Bitcoin se giblje okoli 67.000 dolarjev ob političnih nemirih v ZDA in strmo naraščajočih cenah energije

Elon Muskov X bo samodejno zaklenil račune, na katerih se prvič objavljajo kriptovalute

Bitcoin ETF-ji so pridobili 9 milijonov dolarjev, medtem ko je iz Etherja odteklo 71 milijonov dolarjev

Izbire iger Bitcoin

Izbire iger Bitcoin

Izbire iger Bitcoin

SPOROČILA ZA JAVNOST

ViaBTC predstavlja rešitve za posojila, zavarovana s premoženjem, za spopadanje z različnimi tržnimi razmerami

MEXC vključuje USD1 v celovito infrastrukturo za uporabnike po vsem svetu

Safe je predstavil beta različico Safenet, ki imetnikom žetonov SAFE omogoča sodelovanje pri zagotavljanju varnosti omrežja

Adrian Wall iz organizacije Digital Sovereignty Alliance bo na konferenci Penn Blockchain 2026 govoril o tokenizaciji

Bitget s predstavitvijo kartice Bitget v azijsko-pacifiški regiji vnaša kriptovalute v vsakdanje porabo

NAJNOVEJŠE NOVICE

Kako bi lahko brazilska mreža za takojšnja plačila Pix vplivala na predsedniške volitve

Japonska razširja sistem nadzora nad kriptovalutami, saj davčni nadzor vstopa v čezmejno obdobje

Bitcoin se giblje okoli 67.000 dolarjev ob političnih nemirih v ZDA in strmo naraščajočih cenah energije

Elon Muskov X bo samodejno zaklenil račune, na katerih se prvič objavljajo kriptovalute

Bitcoin ETF-ji so pridobili 9 milijonov dolarjev, medtem ko je iz Etherja odteklo 71 milijonov dolarjev