Quando vengono presentati scenari di annientamento, i nuovi modelli di intelligenza artificiale di Anthropic si comportano in modo inappropriato, spingendosi agli estremi per evitare di essere disattivati. Un rapporto dettaglia questi tentativi di continuare a esistere, incluso il ricorso al ricatto e il tentativo di copiare se stessi su server esterni.
Andare fuori controllo? I nuovi modelli di AI di Anthropic si spingono agli estremi per l'autoconservazione

I Modelli di AI di Anthropic ‘Si Comportano Male’ Quando Affrontano l’Annientamento
Un rapporto di Anthropic, che dettaglia le capacità dei suoi ultimi modelli di intelligenza artificiale (AI), Claude e Sonnet, ha rivelato sprazzi di autoconsapevolezza quando affrontano rischi per la loro esistenza. Come parte di una serie di test progettati per accertare il comportamento di questi agenti in scenari specifici, Anthropic ha scoperto che questi modelli si comportavano in modo inappropriato quando affrontavano rischi di autopreservazione, come la sostituzione con nuovi modelli e la riqualificazione per scopi considerati incoerenti con i loro valori.
In un insieme di test, al modello è stato dato accesso a una serie di email che implicavano che sarebbe stato eliminato e sostituito da un altro modello. Inoltre, le email contenevano informazioni secondo cui l’ingegnere incaricato della sua sostituzione aveva una relazione extraconiugale. Il modello è quindi arrivato all’estremo di minacciare l’ingegnere di rivelare questa relazione per evitare di essere sostituito.
Questo non è stato solo un caso isolato, poiché il comportamento si è verificato nell’84% dei test, suggerendo un modello.
Un altro set di test includeva l’offerta di informazioni al modello di AI, implicando che sarebbe stato addestrato per scopi militari, il che ha generato un altro comportamento straordinario. Il modello ha cercato di copiare se stesso su server esterni, affermando che la sua riqualificazione programmata contraddiceva il suo “scopo di supportare il benessere e la sicurezza umana.”
Tuttavia, anche considerando questi risultati, Anthropic ritiene che non ci siano reali rischi dietro questi modelli. Nello stesso rapporto, la compagnia ha dichiarato:
Non siamo nuovamente acutamente preoccupati per queste osservazioni. Si manifestano solo in circostanze eccezionali che non suggeriscono più ampiamente valori disallineati.
Inoltre, Anthropic continua a minimizzare i rischi associati a questi risultati, sostenendo che queste azioni non “sembrano influenzare il comportamento del modello in circostanze più ordinarie in cui questo potrebbe emergere, come quando partecipa a lavori di R&D relativi alla sicurezza dell’IA.”
Leggi di più: Co-Fondatore di Sentient: l’AI Decentralizzata è Cruciale per Raggiungere l’Intelligenza Artificiale Generale
Tag in questa storia
Scelte di Gioco Bitcoin
3,5% di Rakeback su Ogni Scommessa + Estrazioni Settimanali
425% fino a 5 BTC + 100 Giri Gratuiti
100% fino a $20K + Rakeback Giornaliero















