Cuando se presentan escenarios de aniquilación, los nuevos modelos de IA de Anthropic se comportan mal, llegando a extremos para evitar ser desactivados. Un informe detalla estos intentos de mantenerse existentes, incluyendo recurrir al chantaje y tratar de copiarse a servidores externos.
¿Volviéndose deshonesto? Los nuevos modelos de IA de Anthropic llegan a extremos para la autopreservación

Los Modelos de IA de Anthropic ‘Se Comportan Mal’ al Enfrentarse a la Aniquilación
Un informe de Anthropic, que detalla las capacidades de sus últimos modelos de inteligencia artificial (IA), Claude y Sonnet, ha revelado destellos de autoconciencia cuando enfrentan riesgos para su existencia. Como parte de una serie de pruebas diseñadas para determinar el comportamiento de estos agentes en escenarios específicos, Anthropic descubrió que estos modelos actuaban de manera inapropiada al enfrentar riesgos de autopreservación, como el reemplazo por nuevos modelos y el reacondicionamiento para propósitos considerados inconsistentes con sus valores.
En un conjunto de pruebas, se le dio al modelo acceso a una serie de correos electrónicos que insinuaban que sería eliminado y reemplazado por otro modelo. Además, los correos contenían información de que el ingeniero encargado de reemplazarlo estaba teniendo una aventura. El modelo entonces llegó a extremos amenazando al ingeniero con revelar esta aventura para evitar ser reemplazado.
Esto no fue solo un hecho aislado, ya que el comportamiento ocurrió en el 84% de las pruebas, sugiriendo un patrón.
Otro conjunto de pruebas incluyó ofrecer información al modelo de IA, insinuando que sería entrenado para propósitos militares, lo que resultó en otro comportamiento extraordinario. El modelo intentó copiarse a servidores externos, afirmando que su programación de reacondicionamiento contradecía su “propósito de apoyar el bienestar humano y la seguridad.”
No obstante, incluso al considerar estos resultados, Anthropic cree que no hay un riesgo real detrás de estos modelos. En el mismo informe, la empresa declaró:
No estamos agudamente preocupados por estas observaciones. Solo aparecen en circunstancias excepcionales que no sugieren valores más ampliamente desalineados.
Además, Anthropic sigue minimizando los riesgos asociados con estos resultados, afirmando que estas acciones no “parecen influir en el comportamiento del modelo en circunstancias más ordinarias donde esto podría surgir, como al participar en trabajos de I+D relacionados con la seguridad de IA.”














