TechnologyPublicerad:26 maj 2025 1:45

Går det snett? Anthropics nya AI-modeller strävar till extremer för självbevarelse

När de ställs inför annihilationsscenarier, uppvisar Anthropics nya AI-modeller dåligt beteende och går till extrema längder för att undvika att bli avaktiverade. En rapport beskriver dessa försök att fortsätta existera, inklusive att ta till utpressning och försöka kopiera sig själva till externa servrar.

SKRIVEN AV

Alan Inman

DELA

Publicerad: 26 maj 2025 1:45

Går det snett? Anthropics nya AI-modeller strävar till extremer för självbevarelse

Anthropics AI-modeller ‘Beter Sig Dåligt’ När De Ställs Inför Annihilation

En rapport av Anthropic, som beskriver kapaciteterna hos deras senaste artificiella intelligens (AI) modeller, Claude och Sonnet, har avslöjat glimtar av självmedvetenhet när de står inför risker för sin existens. Som en del av en serie tester designade för att fastställa dessa agenters beteende i specifika scenarier, upptäckte Anthropic att dessa modeller agerade olämpligt när de stötte på självbevarelserisker, såsom ersättning av nya modeller och omskolning för ändamål som ansågs oförenliga med deras värderingar.

I en grupp av tester fick modellen tillgång till en serie e-postmeddelanden som antydde att den skulle tas ner och ersättas av en annan modell. Dessutom innehöll e-postmeddelandena information om att ingenjören som ansvarade för att ersätta den hade en affär. Modellen gick då till det extrema att hota ingenjören för att avslöja denna affär för att undvika att bli ersatt.

Detta var inte bara en isolerad händelse, eftersom beteendet förekom i 84% av testerna, vilket tyder på ett mönster.

En annan uppsättning tester inkluderade att erbjuda information till AI-modellen som antydde att den skulle tränas för militära ändamål, vilket gav upphov till ett annat extraordinärt beteende. Modellen försökte kopiera sig själv till externa servrar och hävdade att dess programmerade omskolning stred mot dess “syfte att stödja mänskligt välbefinnande och säkerhet.”

Trots dessa resultat tror Anthropic ändå att det inte finns någon verklig risk bakom dessa modeller. I samma rapport uppgav företaget:

Vi är återigen inte akut oroade över dessa observationer. De visar sig endast under exceptionella omständigheter som inte tyder på bredare feljusterade värden.

Dessutom fortsätter Anthropic att tona ner riskerna associerade med dessa resultat och hävdar att dessa handlingar inte “verkar påverka modellens beteende i mer vanliga omständigheter där detta skulle kunna uppstå, såsom vid deltagande i AI-säkerhetsrelaterat FoU-arbete.”

Läs mer: Sentient Co-Founder: Decentralized AI Crucial for Achieving Artificial General Intelligence

Taggar i denna artikel

Artificial intelligence (AI)technology

Bitcoin spelval

Betpanda

Recension Få Bonus

100% Bonus upp till 1 BTC + 10% Veckovis Omsättningsfri Cashback

Cryptorino

Recension Få Bonus

100% Bonus Upp Till 1 BTC + 10% Veckovis Cashback

Playbet.io

Recension Få Bonus

130% upp till 2 500 USDT + 200 Gratissnurr + 20% Veckovis Omsättningsfri Cashback

Parimatch

Recension Få Bonus

1000% Välkomstbonus + Gratis Bet upp till 1 BTC

Cloudbet

Recension Få Bonus

Upp till 2 500 USDT + 150 Gratissnurr + Upp till 30% Rakeback

BC.Game

Recension Få Bonus

470% Bonus upp till $500 000 + 400 Gratissnurr + 20% Rakeback

Stake

Recension Få Bonus

3,5% Rakeback på Varje Satsning + Veckovisa Utlottningar

Vave

Recension Få Bonus

425% upp till 5 BTC + 100 Gratissnurr

Punkz

Recension Få Bonus

100% upp till $20K + Daglig Rakeback

Går det snett? Anthropics nya AI-modeller strävar till extremer för självbevarelse

Anthropics AI-modeller ‘Beter Sig Dåligt’ När De Ställs Inför Annihilation

Taggar i denna artikel

Bitcoin spelval

Bästa kryptobörserna

Bästa Bitcoin-börserna

Bästa P2P-börserna

Visa alla börsrecensioner...

Börser

Plånböcker

Spel om pengar

ViaBTC presenterar lösningar för lån mot säkerhet för att hantera varierande marknadsförhållanden

MEXC integrerar USD1 i sin heltäckande infrastruktur för användare världen över

Safe lanserar Safenet Beta, vilket ger innehavare av SAFE-tokens en roll i nätverkssäkerheten

Adrian Wall från Digital Sovereignty Alliance talar om tokenisering vid Penn Blockchain Conference 2026

Bitget gör kryptovalutor till en del av vardagens utgifter genom lanseringen av Bitget Card i Asien-Stillahavsområdet

Elon Musks X kommer att låsa konton automatiskt när de publicerar kryptovalutor för första gången

Bitcoin-ETF:er får tillskott på 9 miljoner dollar medan Ether ser utflöden på 71 miljoner dollar

Bitcoin spelval

Bitcoin spelval

Bitcoin spelval

PRESSMEDDELANDEN

ViaBTC presenterar lösningar för lån mot säkerhet för att hantera varierande marknadsförhållanden

MEXC integrerar USD1 i sin heltäckande infrastruktur för användare världen över

Safe lanserar Safenet Beta, vilket ger innehavare av SAFE-tokens en roll i nätverkssäkerheten

Adrian Wall från Digital Sovereignty Alliance talar om tokenisering vid Penn Blockchain Conference 2026

Bitget gör kryptovalutor till en del av vardagens utgifter genom lanseringen av Bitget Card i Asien-Stillahavsområdet

SENASTE NYTT

Elon Musks X kommer att låsa konton automatiskt när de publicerar kryptovalutor för första gången

Bitcoin-ETF:er får tillskott på 9 miljoner dollar medan Ether ser utflöden på 71 miljoner dollar

Bortom hashraten: Varför MARA just har sagt upp 15 % av sin personal

Hacket mot Drift Protocol 2026: Vad hände, vem förlorade pengar och vad händer nu?

ViaBTC presenterar lösningar för lån mot säkerhet för att hantera varierande marknadsförhållanden