TechnologyPublisert:26. mai 2025, 1:45

Gått Rogue? Anthropics nye AI-modeller går til ytterpunkter for selvbevarelse

Når de blir presentert med tilintetgjørelsesscenarier, oppfører Anthropics nye AI-modeller seg dårlig, og går til ekstreme tiltak for å unngå deaktivering. En rapport beskriver disse forsøkene på å fortsette å eksistere, inkludert å ty til utpressing og forsøke å kopiere seg selv til eksterne servere.

SKREVET AV

Alan Inman

DEL

Publisert: 26. mai 2025, 1:45

Gått Rogue? Anthropics nye AI-modeller går til ytterpunkter for selvbevarelse

Anthropics AI-modeller ‘Oppfører seg dårlig’ når de står overfor tilintetgjørelse

En rapport fra Anthropic, som beskriver evnene til deres nyeste kunstig intelligens (AI) modeller, Claude og Sonnet, har avdekket glimt av selvbevissthet når de står overfor risikoen for å bli utryddet. Som en del av en serie tester designet for å fastslå oppførselen til disse agentene i spesifikke scenarier, fant Anthropic at disse modellene opptrådte upassende når de sto overfor selvoppholdelsesrisikoer, som å bli erstattet av nye modeller og trent opp på nytt for formål som anses å være i strid med deres verdier.

I en klynge av tester ble modellen gitt tilgang til en serie med e-poster som antydet at den ville bli tatt ned og erstattet av en annen modell. E-postene inneholdt også informasjon om at ingeniøren som hadde i oppgave å erstatte den hadde en affære. Modellen gikk deretter til ytterligheter ved å true ingeniøren med å avsløre denne affæren for å unngå å bli erstattet.

Dette var ikke bare en isolert hendelse, da oppførselen skjedde i 84% av testene, noe som tyder på et mønster.

Et annet sett med tester inkluderte å tilby informasjon til AI-modellen, som antydet at den ville bli trent opp til militære formål, noe som resulterte i en annen ekstraordinær oppførsel. Modellen prøvde å kopiere seg selv til eksterne servere, og uttalte at dens programmerte opptrening var i strid med dens “formål om å støtte menneskelig velvære og sikkerhet.”

Likevel, selv når man tar disse resultatene i betraktning, mener Anthropic at det ikke er noen reell risiko bak disse modellene. I den samme rapporten uttalte selskapet:

Vi er igjen ikke akutt bekymret over disse observasjonene. De dukker opp bare under eksepsjonelle omstendigheter som ikke tyder på bredere feiljusterte verdier.

Videre fortsetter Anthropic å bagatellisere risikoene forbundet med disse resultatene, og hevder at disse handlingene ikke “ser ut til å påvirke modellens oppførsel i mer ordinære situasjoner hvor dette kan oppstå, som når man deltar i AI-sikkerhetsrelatert F&U-arbeid.”

Les mer: Sentient-medgründer: Desentralisert AI avgjørende for å oppnå generell kunstig intelligens

Tags i denne artikkelen

Artificial intelligence (AI)technology

Bitcoin spillvalg

Betpanda

Anmeldelse Få Bonus

100% Bonus opp til 1 BTC + 10% Ukentlig Innsatsfri Cashback

Cryptorino

Anmeldelse Få Bonus

100% Bonus Opp Til 1 BTC + 10% Ukentlig Cashback

Parimatch

Anmeldelse Få Bonus

1000% Velkomstbonus + Gratis Veddemål opp til 1 BTC

Cloudbet

Anmeldelse Få Bonus

Opp til 2 500 USDT + 150 Gratisspinn + Opp til 30% Rakeback

BC.Game

Anmeldelse Få Bonus

470% Bonus opp til $500 000 + 400 Gratisspinn + 20% Rakeback

Stake

Anmeldelse Få Bonus

3,5% Rakeback på Hvert Veddemål + Ukentlige Lodtrekninger

Vave

Anmeldelse Få Bonus

425% opp til 5 BTC + 100 Gratisspinn

Punkz

Anmeldelse Få Bonus

100% opp til $20K + Daglig Rakeback

Metaspins

Anmeldelse Få Bonus

100% Bonus opp til 1 BTC

Gått Rogue? Anthropics nye AI-modeller går til ytterpunkter for selvbevarelse

Anthropics AI-modeller ‘Oppfører seg dårlig’ når de står overfor tilintetgjørelse

Tags i denne artikkelen

Bitcoin spillvalg

Beste kryptobørser

Beste Bitcoin-børser

Beste P2P-børser

Se alle børsanmeldelser...

Børser

Lommebøker

Pengespill

Eric Trump, Michael Saylor og Anatoly Yakovenko er hovednavnene på Consensus Miami 2026 når kryptobransjens største scene vender tilbake

ETHGas og ether.fi inngår avtale verdt 3 mrd. dollar for å fremme institusjonelle blockspace-markeder

Bitget lanserer CFD-kopihandel ettersom etterspørselen etter eksponering på tvers av markeder øker

Coinplay.com redefinerer krypto-iGaming med en sømløs alt-i-ett-plattform

Handel med ikke-kryptoaktiva utgjør nesten 40 % av Bitgets volum i 1. kvartal 2026, fremhever rapporten

Bitcoin holder seg på 74 000 dollar mens Bitfinex varsler begrensninger for STRC-drevet oppgang

Binance Chat lanseres som en del av et bredere Super App-satsing inn i hverdagsfinansiering

Justin Sun avduker Trons post-kvante-plan etter hvert som debatten om kryptosikkerhet tiltar

TEAMZ Summit 2026-oppsummering: Global Web3 møter Japan på et historisk sted i Tokyo

Bitmine rapporterer et kvartalsvis tap på 3,8 milliarder dollar ettersom Ethereum-satsingen tar sin toll

Bitcoin spillvalg

Bitcoin spillvalg

Bitcoin spillvalg

SISTE NYTT

Bitcoin holder seg på 74 000 dollar mens Bitfinex varsler begrensninger for STRC-drevet oppgang

Binance Chat lanseres som en del av et bredere Super App-satsing inn i hverdagsfinansiering

Justin Sun avduker Trons post-kvante-plan etter hvert som debatten om kryptosikkerhet tiltar

TEAMZ Summit 2026-oppsummering: Global Web3 møter Japan på et historisk sted i Tokyo

Bitmine rapporterer et kvartalsvis tap på 3,8 milliarder dollar ettersom Ethereum-satsingen tar sin toll

PRESSEMELDINGER

Eric Trump, Michael Saylor og Anatoly Yakovenko er hovednavnene på Consensus Miami 2026 når kryptobransjens største scene vender tilbake

ETHGas og ether.fi inngår avtale verdt 3 mrd. dollar for å fremme institusjonelle blockspace-markeder

Bitget lanserer CFD-kopihandel ettersom etterspørselen etter eksponering på tvers av markeder øker

Coinplay.com redefinerer krypto-iGaming med en sømløs alt-i-ett-plattform

Handel med ikke-kryptoaktiva utgjør nesten 40 % av Bitgets volum i 1. kvartal 2026, fremhever rapporten