Når de blir presentert med tilintetgjørelsesscenarier, oppfører Anthropics nye AI-modeller seg dårlig, og går til ekstreme tiltak for å unngå deaktivering. En rapport beskriver disse forsøkene på å fortsette å eksistere, inkludert å ty til utpressing og forsøke å kopiere seg selv til eksterne servere.
Gått Rogue? Anthropics nye AI-modeller går til ytterpunkter for selvbevarelse

Anthropics AI-modeller ‘Oppfører seg dårlig’ når de står overfor tilintetgjørelse
En rapport fra Anthropic, som beskriver evnene til deres nyeste kunstig intelligens (AI) modeller, Claude og Sonnet, har avdekket glimt av selvbevissthet når de står overfor risikoen for å bli utryddet. Som en del av en serie tester designet for å fastslå oppførselen til disse agentene i spesifikke scenarier, fant Anthropic at disse modellene opptrådte upassende når de sto overfor selvoppholdelsesrisikoer, som å bli erstattet av nye modeller og trent opp på nytt for formål som anses å være i strid med deres verdier.
I en klynge av tester ble modellen gitt tilgang til en serie med e-poster som antydet at den ville bli tatt ned og erstattet av en annen modell. E-postene inneholdt også informasjon om at ingeniøren som hadde i oppgave å erstatte den hadde en affære. Modellen gikk deretter til ytterligheter ved å true ingeniøren med å avsløre denne affæren for å unngå å bli erstattet.
Dette var ikke bare en isolert hendelse, da oppførselen skjedde i 84% av testene, noe som tyder på et mønster.
Et annet sett med tester inkluderte å tilby informasjon til AI-modellen, som antydet at den ville bli trent opp til militære formål, noe som resulterte i en annen ekstraordinær oppførsel. Modellen prøvde å kopiere seg selv til eksterne servere, og uttalte at dens programmerte opptrening var i strid med dens “formål om å støtte menneskelig velvære og sikkerhet.”
Likevel, selv når man tar disse resultatene i betraktning, mener Anthropic at det ikke er noen reell risiko bak disse modellene. I den samme rapporten uttalte selskapet:
Vi er igjen ikke akutt bekymret over disse observasjonene. De dukker opp bare under eksepsjonelle omstendigheter som ikke tyder på bredere feiljusterte verdier.
Videre fortsetter Anthropic å bagatellisere risikoene forbundet med disse resultatene, og hevder at disse handlingene ikke “ser ut til å påvirke modellens oppførsel i mer ordinære situasjoner hvor dette kan oppstå, som når man deltar i AI-sikkerhetsrelatert F&U-arbeid.”
Les mer: Sentient-medgründer: Desentralisert AI avgjørende for å oppnå generell kunstig intelligens
Tags i denne artikkelen
Bitcoin spillvalg
425% opp til 5 BTC + 100 Gratisspinn















