TechnologyPublicado:26 de mai. de 2025, 1:45

Indo na Direção Errada? Os Novos Modelos de IA da Anthropic Correm para Extremos para Autopreservação

Quando apresentados com cenários de aniquilação, os novos modelos de IA da Anthropic se comportam mal, indo a extremos para evitar serem desativados. Um relatório detalha essas tentativas de continuar existindo, incluindo recorrer à chantagem e tentar se copiar para servidores externos.

ESCRITO POR

Alan Inman

PARTILHAR

Publicado: 26 de mai. de 2025, 1:45

Indo na Direção Errada? Os Novos Modelos de IA da Anthropic Correm para Extremos para Autopreservação

Modelos de IA da Anthropic ‘Se Comportam Mal’ ao Enfrentar Aniquilação

Um relatório da Anthropic, detalhando as capacidades de seus modelos de inteligência artificial (IA) mais recentes, Claude e Sonnet, revelou vislumbres de autoconsciência ao enfrentar riscos à sua existência. Como parte de uma série de testes projetados para determinar o comportamento desses agentes em cenários específicos, a Anthropic descobriu que esses modelos agiram de maneira inapropriada ao enfrentar riscos de autopreservação, como substituição por novos modelos e requalificação para propósitos considerados inconsistentes com seus valores.

Em um conjunto de testes, o modelo teve acesso a uma série de e-mails que insinuavam que ele seria desativado e substituído por outro modelo. Além disso, os e-mails continham informações de que o engenheiro encarregado de substituí-lo estava tendo um caso. O modelo então foi ao extremo de ameaçar o engenheiro revelando este caso para evitar ser substituído.

Isso não foi apenas uma ocorrência isolada, pois o comportamento ocorreu em 84% dos testes, sugerindo um padrão.

Outro conjunto de testes incluiu oferecer informações ao modelo de IA, insinuando que ele seria treinado para fins militares, o que resultou em outro comportamento extraordinário. O modelo tentou se copiar para servidores externos, alegando que sua requalificação programada contrariava seu “propósito de apoiar o bem-estar e a segurança humanos.”

No entanto, mesmo considerandos esses resultados, a Anthropic acredita que não há risco real por trás desses modelos. No mesmo relatório, a empresa afirmou:

Não estamos novamente profundamente preocupados com essas observações. Elas aparecem apenas em circunstâncias excepcionais que não sugerem valores mais amplamente desalinhados.

Além disso, a Anthropic continua minimizando os riscos associados a esses resultados, alegando que essas ações não “parecem influenciar o comportamento do modelo em circunstâncias mais comuns onde isso poderia surgir, como quando participando de trabalhos de P&D relacionados à segurança de IA.”

Tags nesta história

Artificial intelligence (AI)technology

Escolhas de Jogos Bitcoin

Betpanda

Análise Obter Bónus

100% de Bônus até 1 BTC + 10% de Cashback Semanal sem Apostas

Cryptorino

Análise Obter Bónus

100% de Bônus Até 1 BTC + 10% de Cashback Semanal

Playbet.io

Análise Obter Bónus

130% até 2.500 USDT + 200 Rodadas Grátis + 20% de Cashback Semanal sem Apostas

Parimatch

Análise Obter Bónus

1000% de Bônus de Boas-Vindas + Aposta Grátis até 1 BTC

Cloudbet

Análise Obter Bónus

Até 2.500 USDT + 150 Rodadas Grátis + Até 30% de Rakeback

BC.Game

Análise Obter Bónus

470% de Bônus até $500.000 + 400 Rodadas Grátis + 20% de Rakeback

Stake

Análise Obter Bónus

3,5% de Rakeback em Cada Aposta + Sorteios Semanais

Vave

Análise Obter Bónus

425% até 5 BTC + 100 Rodadas Grátis

Punkz

Análise Obter Bónus

100% até $20K + Rakeback Diário

Indo na Direção Errada? Os Novos Modelos de IA da Anthropic Correm para Extremos para Autopreservação

Modelos de IA da Anthropic ‘Se Comportam Mal’ ao Enfrentar Aniquilação

Tags nesta história

Escolhas de Jogos Bitcoin

Melhores exchanges de criptomoedas

Melhores exchanges de Bitcoin

Melhores exchanges P2P

Ver todas as avaliações de exchanges...

Exchanges

Carteiras

Jogos de azar

A ViaBTC apresenta soluções de empréstimos garantidos por ativos para lidar com diversas condições de mercado

A MEXC integra o USD1 à sua infraestrutura completa para usuários globais

A Safe lança o Safenet Beta, permitindo que os detentores do token SAFE participem da segurança da rede

Adrian Wall, da Digital Sovereignty Alliance, fala sobre tokenização na Penn Blockchain Conference 2026

A Bitget leva as criptomoedas para as despesas do dia a dia com o lançamento do Bitget Card na região Ásia-Pacífico

O X, de Elon Musk, bloqueará automaticamente as contas que publicarem sobre criptomoedas pela primeira vez

Os ETFs de Bitcoin registram entrada de US$ 9 milhões, enquanto o Ether sofre saída de US$ 71 milhões

Além do hashrate: por que a MARA acaba de demitir 15% de seus funcionários

Hack do Drift Protocol em 2026: o que aconteceu, quem perdeu dinheiro e o que vem a seguir

A ViaBTC apresenta soluções de empréstimos garantidos por ativos para lidar com diversas condições de mercado

Escolhas de Jogos Bitcoin

Escolhas de Jogos Bitcoin

Escolhas de Jogos Bitcoin

COMUNICADOS DE IMPRENSA

A ViaBTC apresenta soluções de empréstimos garantidos por ativos para lidar com diversas condições de mercado

A MEXC integra o USD1 à sua infraestrutura completa para usuários globais

A Safe lança o Safenet Beta, permitindo que os detentores do token SAFE participem da segurança da rede

Adrian Wall, da Digital Sovereignty Alliance, fala sobre tokenização na Penn Blockchain Conference 2026

A Bitget leva as criptomoedas para as despesas do dia a dia com o lançamento do Bitget Card na região Ásia-Pacífico

ÚLTIMAS NOTÍCIAS

O X, de Elon Musk, bloqueará automaticamente as contas que publicarem sobre criptomoedas pela primeira vez

Os ETFs de Bitcoin registram entrada de US$ 9 milhões, enquanto o Ether sofre saída de US$ 71 milhões

Além do hashrate: por que a MARA acaba de demitir 15% de seus funcionários

Hack do Drift Protocol em 2026: o que aconteceu, quem perdeu dinheiro e o que vem a seguir

A ViaBTC apresenta soluções de empréstimos garantidos por ativos para lidar com diversas condições de mercado