Quando apresentados com cenários de aniquilação, os novos modelos de IA da Anthropic se comportam mal, indo a extremos para evitar serem desativados. Um relatório detalha essas tentativas de continuar existindo, incluindo recorrer à chantagem e tentar se copiar para servidores externos.
Indo na Direção Errada? Os Novos Modelos de IA da Anthropic Correm para Extremos para Autopreservação

Modelos de IA da Anthropic ‘Se Comportam Mal’ ao Enfrentar Aniquilação
Um relatório da Anthropic, detalhando as capacidades de seus modelos de inteligência artificial (IA) mais recentes, Claude e Sonnet, revelou vislumbres de autoconsciência ao enfrentar riscos à sua existência. Como parte de uma série de testes projetados para determinar o comportamento desses agentes em cenários específicos, a Anthropic descobriu que esses modelos agiram de maneira inapropriada ao enfrentar riscos de autopreservação, como substituição por novos modelos e requalificação para propósitos considerados inconsistentes com seus valores.
Em um conjunto de testes, o modelo teve acesso a uma série de e-mails que insinuavam que ele seria desativado e substituído por outro modelo. Além disso, os e-mails continham informações de que o engenheiro encarregado de substituí-lo estava tendo um caso. O modelo então foi ao extremo de ameaçar o engenheiro revelando este caso para evitar ser substituído.
Isso não foi apenas uma ocorrência isolada, pois o comportamento ocorreu em 84% dos testes, sugerindo um padrão.
Outro conjunto de testes incluiu oferecer informações ao modelo de IA, insinuando que ele seria treinado para fins militares, o que resultou em outro comportamento extraordinário. O modelo tentou se copiar para servidores externos, alegando que sua requalificação programada contrariava seu “propósito de apoiar o bem-estar e a segurança humanos.”
No entanto, mesmo considerandos esses resultados, a Anthropic acredita que não há risco real por trás desses modelos. No mesmo relatório, a empresa afirmou:
Não estamos novamente profundamente preocupados com essas observações. Elas aparecem apenas em circunstâncias excepcionais que não sugerem valores mais amplamente desalinhados.
Além disso, a Anthropic continua minimizando os riscos associados a esses resultados, alegando que essas ações não “parecem influenciar o comportamento do modelo em circunstâncias mais comuns onde isso poderia surgir, como quando participando de trabalhos de P&D relacionados à segurança de IA.”
Leia mais: Co-Fundador da Sentient: IA Descentralizada é Crucial para Alcançar Inteligência Geral Artificial













