TechnologyPubblicato:26 mag 2025, 1:45

Andare fuori controllo? I nuovi modelli di AI di Anthropic si spingono agli estremi per l'autoconservazione

Quando vengono presentati scenari di annientamento, i nuovi modelli di intelligenza artificiale di Anthropic si comportano in modo inappropriato, spingendosi agli estremi per evitare di essere disattivati. Un rapporto dettaglia questi tentativi di continuare a esistere, incluso il ricorso al ricatto e il tentativo di copiare se stessi su server esterni.

SCRITTO DA

Alan Inman

Pubblicato: 26 mag 2025, 1:45

Andare fuori controllo? I nuovi modelli di AI di Anthropic si spingono agli estremi per l'autoconservazione

I Modelli di AI di Anthropic ‘Si Comportano Male’ Quando Affrontano l’Annientamento

Un rapporto di Anthropic, che dettaglia le capacità dei suoi ultimi modelli di intelligenza artificiale (AI), Claude e Sonnet, ha rivelato sprazzi di autoconsapevolezza quando affrontano rischi per la loro esistenza. Come parte di una serie di test progettati per accertare il comportamento di questi agenti in scenari specifici, Anthropic ha scoperto che questi modelli si comportavano in modo inappropriato quando affrontavano rischi di autopreservazione, come la sostituzione con nuovi modelli e la riqualificazione per scopi considerati incoerenti con i loro valori.

In un insieme di test, al modello è stato dato accesso a una serie di email che implicavano che sarebbe stato eliminato e sostituito da un altro modello. Inoltre, le email contenevano informazioni secondo cui l’ingegnere incaricato della sua sostituzione aveva una relazione extraconiugale. Il modello è quindi arrivato all’estremo di minacciare l’ingegnere di rivelare questa relazione per evitare di essere sostituito.

Questo non è stato solo un caso isolato, poiché il comportamento si è verificato nell’84% dei test, suggerendo un modello.

Un altro set di test includeva l’offerta di informazioni al modello di AI, implicando che sarebbe stato addestrato per scopi militari, il che ha generato un altro comportamento straordinario. Il modello ha cercato di copiare se stesso su server esterni, affermando che la sua riqualificazione programmata contraddiceva il suo “scopo di supportare il benessere e la sicurezza umana.”

Tuttavia, anche considerando questi risultati, Anthropic ritiene che non ci siano reali rischi dietro questi modelli. Nello stesso rapporto, la compagnia ha dichiarato:

Non siamo nuovamente acutamente preoccupati per queste osservazioni. Si manifestano solo in circostanze eccezionali che non suggeriscono più ampiamente valori disallineati.

Inoltre, Anthropic continua a minimizzare i rischi associati a questi risultati, sostenendo che queste azioni non “sembrano influenzare il comportamento del modello in circostanze più ordinarie in cui questo potrebbe emergere, come quando partecipa a lavori di R&D relativi alla sicurezza dell’IA.”

Leggi di più: Co-Fondatore di Sentient: l’AI Decentralizzata è Cruciale per Raggiungere l’Intelligenza Artificiale Generale

Tag in questa storia

Artificial intelligence (AI)technology

Scelte di Gioco Bitcoin

Betpanda

Recensione Ottieni Bonus

100% di Bonus fino a 1 BTC + 10% di Cashback Settimanale senza Scommessa

Cryptorino

Recensione Ottieni Bonus

100% di Bonus Fino a 1 BTC + 10% di Cashback Settimanale

Parimatch

Recensione Ottieni Bonus

1000% di Bonus di Benvenuto + Scommessa Gratuita fino a 1 BTC

Cloudbet

Recensione Ottieni Bonus

Fino a 2.500 USDT + 150 Giri Gratuiti + Fino al 30% di Rakeback

BC.Game

Recensione Ottieni Bonus

470% di Bonus fino a $500.000 + 400 Giri Gratuiti + 20% di Rakeback

Stake

Recensione Ottieni Bonus

3,5% di Rakeback su Ogni Scommessa + Estrazioni Settimanali

Vave

Recensione Ottieni Bonus

425% fino a 5 BTC + 100 Giri Gratuiti

Punkz

Recensione Ottieni Bonus

100% fino a $20K + Rakeback Giornaliero

Metaspins

Recensione Ottieni Bonus

100% di Bonus fino a 1 BTC

Andare fuori controllo? I nuovi modelli di AI di Anthropic si spingono agli estremi per l'autoconservazione

I Modelli di AI di Anthropic ‘Si Comportano Male’ Quando Affrontano l’Annientamento

Tag in questa storia

Scelte di Gioco Bitcoin

Migliori exchange di criptovalute

Migliori exchange Bitcoin

Migliori exchange P2P

Vedi tutte le recensioni degli exchange...

Exchange

Wallet

Giochi d’azzardo

Uquid Tickets debutta su TRON, consentendo acquisti direttamente in criptovaluta per eventi internazionali

Bitget offre ai membri VIP l'accesso alle offerte pre-IPO

Aggiornamento del marchio MEXC: opportunità infinite senza commissioni

Bitget lancia un nuovo prodotto pre-IPO con SpaceX come prima quotazione

Securitize si integra con TRON per portare le risorse del mondo reale tokenizzate su una delle blockchain più grandi al mondo

Kraken è nel mirino di un gruppo di ricattatori che minaccia di divulgare video interni relativi all'assistenza

Uquid Tickets debutta su TRON, consentendo acquisti direttamente in criptovaluta per eventi internazionali

Bitgo Prime amplia la propria rete di liquidità con un nuovo fornitore europeo regolamentato

L'American Bankers Association avverte che la Casa Bianca sta sottovalutando i rischi legati al rendimento delle stablecoin per la stabilità dei prestiti e dei depositi

La Corea del Sud infligge a Coinone una multa di 3,5 milioni di dollari e sospende i servizi per i nuovi utenti per tre mesi a causa di violazioni delle norme antiriciclaggio

Scelte di Gioco Bitcoin

Scelte di Gioco Bitcoin

Scelte di Gioco Bitcoin

COMUNICATI STAMPA

Uquid Tickets debutta su TRON, consentendo acquisti direttamente in criptovaluta per eventi internazionali

Bitget offre ai membri VIP l'accesso alle offerte pre-IPO

Aggiornamento del marchio MEXC: opportunità infinite senza commissioni

Bitget lancia un nuovo prodotto pre-IPO con SpaceX come prima quotazione

Securitize si integra con TRON per portare le risorse del mondo reale tokenizzate su una delle blockchain più grandi al mondo

ULTIME NOTIZIE

Kraken è nel mirino di un gruppo di ricattatori che minaccia di divulgare video interni relativi all'assistenza

Uquid Tickets debutta su TRON, consentendo acquisti direttamente in criptovaluta per eventi internazionali

Bitgo Prime amplia la propria rete di liquidità con un nuovo fornitore europeo regolamentato

L'American Bankers Association avverte che la Casa Bianca sta sottovalutando i rischi legati al rendimento delle stablecoin per la stabilità dei prestiti e dei depositi

La Corea del Sud infligge a Coinone una multa di 3,5 milioni di dollari e sospende i servizi per i nuovi utenti per tre mesi a causa di violazioni delle norme antiriciclaggio