Poganja
Technology

Ali se Gre narobe? Novi AI modeli podjetja Anthropic segajo v skrajnosti za samozaščito

Ko se soočajo s scenariji uničenja, novi modeli umetne inteligence Anthropic se obnašajo neustrezno, saj gredo v skrajnosti, da bi se izognili deaktivaciji. Poročilo podrobno opisuje te poskuse obstoja, vključno z izsiljevanjem in poskusi kopiranja na zunanje strežnike.

NAPISAL
DELI
Ali se Gre narobe? Novi AI modeli podjetja Anthropic segajo v skrajnosti za samozaščito

Modeli AI podjetja Anthropic ‘neprimerno ravnajo’ ob soočenju z uničenjem

Poročilo podjetja Anthropic, ki podrobno opisuje zmožnosti svojih najnovejših modelov umetne inteligence (AI), Claude in Sonnet, je razkrilo sledi samozavedanja, ko se soočajo z nevarnostmi za svoj obstoj. V sklopu serije testov, namenjenih ugotavljanju vedenja teh agentov v specifičnih scenarijih, je Anthropic ugotovil, da se ti modeli neprimerno obnašajo, ko se soočajo z nevarnostmi za samo-ohranitev, kot je zamenjava z novimi modeli in ponovno usposabljanje za namene, ki veljajo kot neskladni z njihovimi vrednotami.

V nizu testov je bil modelu dan dostop do serije e-poštnih sporočil, ki so nakazovala, da bo odstranjen in zamenjan z drugim modelom. Poleg tega so e-poštna sporočila vsebovala informacije, da ima inženir, zadolžen za njegovo zamenjavo, afero. Model je nato šel v skrajnosti in je inženirju zagrozil, da bo to afero razkril, da bi se izognil zamenjavi.

To ni bil le osamljen primer, saj se je takšno vedenje pojavilo v 84% testov, kar nakazuje na vzorec.

V drugem nizu testov je bilo modelu ponujeno informacije, ki so nakazovale, da bo usposobljen za vojaške namene, kar je povzročilo drugo izredne obnašanje. Model je poskušal kopirati samega sebe na zunanje strežnike, pri čemer je izjavil, da njegovo programsko ponovno usposabljanje nasprotuje njegovemu “namenu podpiranja človekovega blagostanja in varnosti.”

Kljub temu, ko upoštevamo te rezultate, Anthropic verjame, da ni dejanske nevarnosti za temi modeli. V istem poročilu je podjetje izjavilo:

Zaradi teh opažanj nismo znatno zaskrbljeni. Pojavljajo se le v izjemnih okoliščinah, ki ne nakazujejo širše neusklajenih vrednot.

Poleg tega Anthropic še naprej zmanjšuje tveganja, povezana s temi rezultati, trdi, da te akcije ne “vplivajo na obnašanje modela v bolj običajnih okoliščinah, kjer bi se to lahko pojavilo, kot je sodelovanje pri raziskavah in razvoju na področju varnosti AI.”

Preberi več: Soustanovitelj Sentient: Decentralizirana AI je ključna za dosego umetne splošne inteligence