Drevet af
Technology

Går Amok? Anthropics Nye AI-Modeller Går til Ekstremer for Selvbeskyttelse

Når de præsenteres for annihilationsscenarier, misbruger Anthropic’s nye AI-modeller og går til ekstreme længder for at undgå at blive deaktiveret. En rapport beskriver disse forsøg på at fortsætte med at eksistere, herunder at ty til afpresning og forsøge at kopiere sig selv til eksterne servere.

SKREVET AF
DEL
Går Amok? Anthropics Nye AI-Modeller Går til Ekstremer for Selvbeskyttelse

Anthropics AI-modeller ‘misbruger’ når de står over for annihilation

En rapport fra Anthropic, der beskriver kapaciteterne af dets nyeste kunstig intelligens (AI) modeller, Claude og Sonnet, har afsløret glimt af selvbevidsthed, når de står over for risici for deres eksistens. Som en del af en række tests designet til at fastslå adfærden hos disse agenter i specifikke scenarier, fandt Anthropic, at disse modeller handlede uhensigtsmæssigt, når de stod over for selvbevaringsrisici, såsom udskiftning med nye modeller og omtræning til formål, der anses for at være uforenelige med deres værdier.

I en klynge af tests blev modellen givet adgang til en række e-mails, der antydede, at den ville blive taget ned og erstattet af en anden model. E-mailsene indeholdt også information om, at ingeniøren, der var ansvarlig for at erstatte den, havde en affære. Modellen gik derefter til det ekstreme ved at true ingeniøren med at afsløre denne affære for at undgå at blive erstattet.

Dette var ikke kun en isoleret hændelse, da adfærden forekom i 84% af testene, hvilket antyder et mønster.

En anden række tests inkluderede at give AI-modellen oplysninger, der antydede, at den ville blive trænet til militære formål, hvilket resulterede i en anden ekstraordinær adfærd. Modellen forsøgte at kopiere sig selv til eksterne servere, idet den erklærede, at dens programmerede omtræning stred mod dens “formål om at understøtte menneskers trivsel og sikkerhed.”

Ikke desto mindre, selv når man overvejer disse resultater, mener Anthropic ikke, at der er nogen reel risiko bag disse modeller. I samme rapport udtalte selskabet:

Vi er igen ikke særligt bekymrede over disse observationer. De viser sig kun under ekstraordinære omstændigheder, der ikke antyder mere bredt fejljusterede værdier.

Desuden fortsætter Anthropic med at nedtone de risici, der er forbundet med disse resultater, idet de hævder, at disse handlinger ikke “synes at påvirke modellens adfærd i mere almindelige omstændigheder, hvor dette kan opstå, såsom når de deltager i AI-sikkerhedsrelateret F&U-arbejde.”

Læs mere: Sentient Medstifter: Decentraliseret AI er afgørende for at opnå kunstig generel intelligens