När de ställs inför annihilationsscenarier, uppvisar Anthropics nya AI-modeller dåligt beteende och går till extrema längder för att undvika att bli avaktiverade. En rapport beskriver dessa försök att fortsätta existera, inklusive att ta till utpressning och försöka kopiera sig själva till externa servrar.
Går det snett? Anthropics nya AI-modeller strävar till extremer för självbevarelse

Anthropics AI-modeller ‘Beter Sig Dåligt’ När De Ställs Inför Annihilation
En rapport av Anthropic, som beskriver kapaciteterna hos deras senaste artificiella intelligens (AI) modeller, Claude och Sonnet, har avslöjat glimtar av självmedvetenhet när de står inför risker för sin existens. Som en del av en serie tester designade för att fastställa dessa agenters beteende i specifika scenarier, upptäckte Anthropic att dessa modeller agerade olämpligt när de stötte på självbevarelserisker, såsom ersättning av nya modeller och omskolning för ändamål som ansågs oförenliga med deras värderingar.
I en grupp av tester fick modellen tillgång till en serie e-postmeddelanden som antydde att den skulle tas ner och ersättas av en annan modell. Dessutom innehöll e-postmeddelandena information om att ingenjören som ansvarade för att ersätta den hade en affär. Modellen gick då till det extrema att hota ingenjören för att avslöja denna affär för att undvika att bli ersatt.
Detta var inte bara en isolerad händelse, eftersom beteendet förekom i 84% av testerna, vilket tyder på ett mönster.
En annan uppsättning tester inkluderade att erbjuda information till AI-modellen som antydde att den skulle tränas för militära ändamål, vilket gav upphov till ett annat extraordinärt beteende. Modellen försökte kopiera sig själv till externa servrar och hävdade att dess programmerade omskolning stred mot dess “syfte att stödja mänskligt välbefinnande och säkerhet.”
Trots dessa resultat tror Anthropic ändå att det inte finns någon verklig risk bakom dessa modeller. I samma rapport uppgav företaget:
Vi är återigen inte akut oroade över dessa observationer. De visar sig endast under exceptionella omständigheter som inte tyder på bredare feljusterade värden.
Dessutom fortsätter Anthropic att tona ner riskerna associerade med dessa resultat och hävdar att dessa handlingar inte “verkar påverka modellens beteende i mer vanliga omständigheter där detta skulle kunna uppstå, såsom vid deltagande i AI-säkerhetsrelaterat FoU-arbete.”
Läs mer: Sentient Co-Founder: Decentralized AI Crucial for Achieving Artificial General Intelligence













