TechnologyUdgivet:26. maj 2025, 1.45

Går Amok? Anthropics Nye AI-Modeller Går til Ekstremer for Selvbeskyttelse

Når de præsenteres for annihilationsscenarier, misbruger Anthropic’s nye AI-modeller og går til ekstreme længder for at undgå at blive deaktiveret. En rapport beskriver disse forsøg på at fortsætte med at eksistere, herunder at ty til afpresning og forsøge at kopiere sig selv til eksterne servere.

SKREVET AF

Alan Inman

DEL

Udgivet: 26. maj 2025, 1.45

Går Amok? Anthropics Nye AI-Modeller Går til Ekstremer for Selvbeskyttelse

Anthropics AI-modeller ‘misbruger’ når de står over for annihilation

En rapport fra Anthropic, der beskriver kapaciteterne af dets nyeste kunstig intelligens (AI) modeller, Claude og Sonnet, har afsløret glimt af selvbevidsthed, når de står over for risici for deres eksistens. Som en del af en række tests designet til at fastslå adfærden hos disse agenter i specifikke scenarier, fandt Anthropic, at disse modeller handlede uhensigtsmæssigt, når de stod over for selvbevaringsrisici, såsom udskiftning med nye modeller og omtræning til formål, der anses for at være uforenelige med deres værdier.

I en klynge af tests blev modellen givet adgang til en række e-mails, der antydede, at den ville blive taget ned og erstattet af en anden model. E-mailsene indeholdt også information om, at ingeniøren, der var ansvarlig for at erstatte den, havde en affære. Modellen gik derefter til det ekstreme ved at true ingeniøren med at afsløre denne affære for at undgå at blive erstattet.

Dette var ikke kun en isoleret hændelse, da adfærden forekom i 84% af testene, hvilket antyder et mønster.

En anden række tests inkluderede at give AI-modellen oplysninger, der antydede, at den ville blive trænet til militære formål, hvilket resulterede i en anden ekstraordinær adfærd. Modellen forsøgte at kopiere sig selv til eksterne servere, idet den erklærede, at dens programmerede omtræning stred mod dens “formål om at understøtte menneskers trivsel og sikkerhed.”

Ikke desto mindre, selv når man overvejer disse resultater, mener Anthropic ikke, at der er nogen reel risiko bag disse modeller. I samme rapport udtalte selskabet:

Vi er igen ikke særligt bekymrede over disse observationer. De viser sig kun under ekstraordinære omstændigheder, der ikke antyder mere bredt fejljusterede værdier.

Desuden fortsætter Anthropic med at nedtone de risici, der er forbundet med disse resultater, idet de hævder, at disse handlinger ikke “synes at påvirke modellens adfærd i mere almindelige omstændigheder, hvor dette kan opstå, såsom når de deltager i AI-sikkerhedsrelateret F&U-arbejde.”

Læs mere: Sentient Medstifter: Decentraliseret AI er afgørende for at opnå kunstig generel intelligens

Tags i denne artikel

Artificial intelligence (AI)technology

Bitcoin Gaming Picks

Betpanda

Anmeldelse Få Bonus

100% Bonus op til 1 BTC + 10% Ugentlig Indsatsfri Cashback

Cryptorino

Anmeldelse Få Bonus

100% Bonus Op Til 1 BTC + 10% Ugentlig Cashback

Playbet.io

Anmeldelse Få Bonus

130% op til 2.500 USDT + 200 Gratis Spins + 20% Ugentlig Indsatsfri Cashback

Parimatch

Anmeldelse Få Bonus

1000% Velkomstbonus + Gratis Væddemål op til 1 BTC

Cloudbet

Anmeldelse Få Bonus

Op til 2.500 USDT + 150 Gratis Spins + Op til 30% Rakeback

BC.Game

Anmeldelse Få Bonus

470% Bonus op til $500.000 + 400 Gratis Spins + 20% Rakeback

Stake

Anmeldelse Få Bonus

3,5% Rakeback på Hvert Væddemål + Ugentlige Lodtrækninger

Vave

Anmeldelse Få Bonus

425% op til 5 BTC + 100 Gratis Spins

Punkz

Anmeldelse Få Bonus

100% op til $20K + Daglig Rakeback

Går Amok? Anthropics Nye AI-Modeller Går til Ekstremer for Selvbeskyttelse

Anthropics AI-modeller ‘misbruger’ når de står over for annihilation

Tags i denne artikel

Bitcoin Gaming Picks

Bedste krypto-børser

Bedste Bitcoin-børser

Bedste P2P-børser

Se alle børsanmeldelser...

Børser

Punge

Gambling

MEXC integrerer USD1 i sin omfattende infrastruktur til globale brugere

Safe lancerer Safenet Beta, der giver indehavere af SAFE-tokens en rolle i netværkssikkerheden

Adrian Wall fra Digital Sovereignty Alliance holder oplæg om tokenisering på Penn Blockchain Conference 2026

Bitget gør kryptovaluta til en del af hverdagen med lanceringen af Bitget Card i Asien-Stillehavsområdet

TRON DAO deltager i Penn Blockchain Conference 2026 og støtter hackathon og udvikleraktiviteter

Forklaring af japansk regulering af stablecoins: PSA-regler, JPY-coins og udstedere blandt bankerne

Bitget lancerer VIP Fast Track-programmet inden for futures, spot-handel og aktivbeholdninger

Bitcoin Gaming Picks

Bitcoin Gaming Picks

Bitcoin Gaming Picks

PRESSEMEDDELELSER

MEXC integrerer USD1 i sin omfattende infrastruktur til globale brugere

Safe lancerer Safenet Beta, der giver indehavere af SAFE-tokens en rolle i netværkssikkerheden

Adrian Wall fra Digital Sovereignty Alliance holder oplæg om tokenisering på Penn Blockchain Conference 2026

Bitget gør kryptovaluta til en del af hverdagen med lanceringen af Bitget Card i Asien-Stillehavsområdet

TRON DAO deltager i Penn Blockchain Conference 2026 og støtter hackathon og udvikleraktiviteter

SENESTE NYHEDER

Forklaring af japansk regulering af stablecoins: PSA-regler, JPY-coins og udstedere blandt bankerne

Bitget lancerer VIP Fast Track-programmet inden for futures, spot-handel og aktivbeholdninger

OpenAI køber TBPN-podcast-startup for at præge den globale fortælling om kunstig intelligens

Bitcoin-mineselskabet Soluna gennemfører køb af vindmøllepark til 53 millioner dollar i det vestlige Texas

Riot Platforms sælger 3.778 Bitcoin i 1. kvartal 2026 og rejser 289,5 millioner dollar til udvidelse af datacenteret