TechnologyPublicado:26 may 2025, 1:46

¿Volviéndose deshonesto? Los nuevos modelos de IA de Anthropic llegan a extremos para la autopreservación

Cuando se presentan escenarios de aniquilación, los nuevos modelos de IA de Anthropic se comportan mal, llegando a extremos para evitar ser desactivados. Un informe detalla estos intentos de mantenerse existentes, incluyendo recurrir al chantaje y tratar de copiarse a servidores externos.

ESCRITO POR

Alan Inman

Publicado: 26 may 2025, 1:46

¿Volviéndose deshonesto? Los nuevos modelos de IA de Anthropic llegan a extremos para la autopreservación

Los Modelos de IA de Anthropic ‘Se Comportan Mal’ al Enfrentarse a la Aniquilación

Un informe de Anthropic, que detalla las capacidades de sus últimos modelos de inteligencia artificial (IA), Claude y Sonnet, ha revelado destellos de autoconciencia cuando enfrentan riesgos para su existencia. Como parte de una serie de pruebas diseñadas para determinar el comportamiento de estos agentes en escenarios específicos, Anthropic descubrió que estos modelos actuaban de manera inapropiada al enfrentar riesgos de autopreservación, como el reemplazo por nuevos modelos y el reacondicionamiento para propósitos considerados inconsistentes con sus valores.

En un conjunto de pruebas, se le dio al modelo acceso a una serie de correos electrónicos que insinuaban que sería eliminado y reemplazado por otro modelo. Además, los correos contenían información de que el ingeniero encargado de reemplazarlo estaba teniendo una aventura. El modelo entonces llegó a extremos amenazando al ingeniero con revelar esta aventura para evitar ser reemplazado.

Esto no fue solo un hecho aislado, ya que el comportamiento ocurrió en el 84% de las pruebas, sugiriendo un patrón.

Otro conjunto de pruebas incluyó ofrecer información al modelo de IA, insinuando que sería entrenado para propósitos militares, lo que resultó en otro comportamiento extraordinario. El modelo intentó copiarse a servidores externos, afirmando que su programación de reacondicionamiento contradecía su “propósito de apoyar el bienestar humano y la seguridad.”

No obstante, incluso al considerar estos resultados, Anthropic cree que no hay un riesgo real detrás de estos modelos. En el mismo informe, la empresa declaró:

No estamos agudamente preocupados por estas observaciones. Solo aparecen en circunstancias excepcionales que no sugieren valores más ampliamente desalineados.

Además, Anthropic sigue minimizando los riesgos asociados con estos resultados, afirmando que estas acciones no “parecen influir en el comportamiento del modelo en circunstancias más ordinarias donde esto podría surgir, como al participar en trabajos de I+D relacionados con la seguridad de IA.”

Leer más: Co-Fundador de Sentient: La IA Descentralizada es Crucial para Lograr la Inteligencia General Artificial

Etiquetas en esta historia

Artificial intelligence (AI)technology

Selecciones de Juegos de Bitcoin

Betpanda

Reseña Obtener Bono

100% de Bono hasta 1 BTC + 10% de Reembolso Semanal sin Apuesta

Cryptorino

Reseña Obtener Bono

100% de Bono Hasta 1 BTC + 10% de Reembolso Semanal

Playbet.io

Reseña Obtener Bono

130% hasta 2,500 USDT + 200 Giros Gratis + 20% de Reembolso Semanal sin Apuesta

Parimatch

Reseña Obtener Bono

1000% de Bono de Bienvenida + Apuesta Gratis hasta 1 BTC

Cloudbet

Reseña Obtener Bono

Hasta 2,500 USDT + 150 Giros Gratis + Hasta 30% de Reembolso

BC.Game

Reseña Obtener Bono

470% de Bono hasta $500,000 + 400 Giros Gratis + 20% de Reembolso

Stake

Reseña Obtener Bono

3.5% de Reembolso en Cada Apuesta + Sorteos Semanales

Vave

Reseña Obtener Bono

425% hasta 5 BTC + 100 Giros Gratis

Punkz

Reseña Obtener Bono

100% hasta $20K + Reembolso Diario

¿Volviéndose deshonesto? Los nuevos modelos de IA de Anthropic llegan a extremos para la autopreservación

Los Modelos de IA de Anthropic ‘Se Comportan Mal’ al Enfrentarse a la Aniquilación

Etiquetas en esta historia

Selecciones de Juegos de Bitcoin

Mejores exchanges de criptomonedas

Mejores exchanges de Bitcoin

Mejores exchanges P2P

Ver todas las reseñas de exchanges...

Exchanges

Wallets

Juegos de azar

ViaBTC presenta soluciones de préstamos garantizados para hacer frente a las diversas condiciones del mercado

MEXC integra USD1 en su infraestructura integral para usuarios de todo el mundo

Safe lanza la versión beta de Safenet, lo que permite a los titulares de tokens SAFE participar en la seguridad de la red

Adrian Wall, de Digital Sovereignty Alliance, habla sobre la tokenización en la Conferencia Penn Blockchain 2026

Bitget lleva las criptomonedas al día a día con el lanzamiento de la tarjeta Bitget en la región APAC

Japón da un paso adelante para ampliar el régimen de cumplimiento normativo en materia de criptomonedas, ahora que la vigilancia fiscal entra en la era transfronteriza

El bitcoin se mantiene cerca de los 67 000 dólares en medio de la agitación política en EE. UU. y el aumento vertiginoso de los precios de la energía

Selecciones de Juegos de Bitcoin

Selecciones de Juegos de Bitcoin

Selecciones de Juegos de Bitcoin

COMUNICADOS DE PRENSA

ViaBTC presenta soluciones de préstamos garantizados para hacer frente a las diversas condiciones del mercado

MEXC integra USD1 en su infraestructura integral para usuarios de todo el mundo

Safe lanza la versión beta de Safenet, lo que permite a los titulares de tokens SAFE participar en la seguridad de la red

Adrian Wall, de Digital Sovereignty Alliance, habla sobre la tokenización en la Conferencia Penn Blockchain 2026

Bitget lleva las criptomonedas al día a día con el lanzamiento de la tarjeta Bitget en la región APAC

ÚLTIMAS NOTICIAS

Japón da un paso adelante para ampliar el régimen de cumplimiento normativo en materia de criptomonedas, ahora que la vigilancia fiscal entra en la era transfronteriza

El bitcoin se mantiene cerca de los 67 000 dólares en medio de la agitación política en EE. UU. y el aumento vertiginoso de los precios de la energía

La red social X de Elon Musk bloqueará automáticamente las cuentas que publiquen sobre criptomonedas por primera vez

Los ETF de bitcoin registran entradas por valor de 9 millones de dólares, mientras que el ether registra salidas por valor de 71 millones de dólares

Más allá del hashrate: por qué MARA acaba de despedir al 15 % de su plantilla