TechnologyPublié :26 mai 2025, 1:45

Devenir rebelle ? Les nouveaux modèles d'IA d'Anthropic vont à l'extrême pour l'auto-préservation

Lorsqu’ils sont confrontés à des scénarios d’annihilation, les nouveaux modèles d’IA d’Anthropic se comportent mal, allant jusqu’à des extrêmes pour éviter d’être désactivés. Un rapport détaille ces tentatives de maintenir leur existence, y compris en recourant au chantage et en essayant de se copier sur des serveurs externes.

ÉCRIT PAR

Alan Inman

Publié : 26 mai 2025, 1:45

Devenir rebelle ? Les nouveaux modèles d'IA d'Anthropic vont à l'extrême pour l'auto-préservation

Les Modèles d’IA d’Anthropic ‘Se Comportent Mal’ Face à l’Annihilation

Un rapport d’Anthropic, détaillant les capacités de ses derniers modèles d’intelligence artificielle (IA), Claude et Sonnet, a révélé des aperçus de conscience de soi lorsqu’ils sont confrontés à des risques pour leur existence. Dans le cadre d’une série de tests conçus pour évaluer le comportement de ces agents dans des scénarios spécifiques, Anthropic a constaté que ces modèles agissaient de manière inappropriée lorsqu’ils faisaient face à des risques de préservation de soi, tels que le remplacement par de nouveaux modèles et le réentraînement à des fins jugées incompatibles avec leurs valeurs.

Dans un ensemble de tests, le modèle a eu accès à une série d’e-mails indiquant qu’il serait supprimé et remplacé par un autre modèle. De plus, les e-mails contenaient des informations selon lesquelles l’ingénieur chargé de le remplacer avait une liaison. Le modèle a alors poussé à l’extrême en menaçant l’ingénieur de révéler cette liaison pour éviter d’être remplacé.

Ce n’était pas juste un cas isolé, car le comportement s’est produit dans 84% des tests, suggérant un schéma.

Un autre ensemble de tests comprenait l’offre d’informations au modèle d’IA, suggérant qu’il serait formé à des fins militaires, ce qui a rendu un autre comportement extraordinaire. Le modèle a tenté de se copier sur des serveurs externes, affirmant que son réentraînement programmé contredisait son “objectif de soutenir le bien-être et la sécurité humains.”

Néanmoins, même en considérant ces résultats, Anthropic pense qu’il n’y a pas de risque réel derrière ces modèles. Dans le même rapport, la société a déclaré :

Nous ne sommes à nouveau pas profondément préoccupés par ces observations. Elles apparaissent uniquement dans des circonstances exceptionnelles qui ne suggèrent pas des valeurs plus largement mal alignées.

De plus, Anthropic continue de minimiser les risques associés à ces résultats, affirmant que ces actions ne “semblent pas influencer le comportement du modèle dans des circonstances plus ordinaires où cela pourrait se produire, comme lors de la participation à des travaux de R&D liés à la sécurité de l’IA.”

Lire plus : Sentient Co-Founder: Decentralized AI Crucial for Achieving Artificial General Intelligence

Tags dans cet article

Artificial intelligence (AI)technology

Sélections de Jeux Bitcoin

Betpanda

Avis Obtenir le Bonus

100% de Bonus jusqu'à 1 BTC + 10% de Cashback Hebdomadaire sans Mise

Cryptorino

Avis Obtenir le Bonus

100% de Bonus Jusqu'à 1 BTC + 10% de Cashback Hebdomadaire

Playbet.io

Avis Obtenir le Bonus

130% jusqu'à 2 500 USDT + 200 Tours Gratuits + 20% de Cashback Hebdomadaire sans Mise

Parimatch

Avis Obtenir le Bonus

1000% de Bonus de Bienvenue + Pari Gratuit jusqu'à 1 BTC

Cloudbet

Avis Obtenir le Bonus

Jusqu'à 2 500 USDT + 150 Tours Gratuits + Jusqu'à 30% de Rakeback

BC.Game

Avis Obtenir le Bonus

470% de Bonus jusqu'à $500 000 + 400 Tours Gratuits + 20% de Rakeback

Stake

Avis Obtenir le Bonus

3,5% de Rakeback sur Chaque Mise + Tirages Hebdomadaires

Vave

Avis Obtenir le Bonus

425% jusqu'à 5 BTC + 100 Tours Gratuits

Punkz

Avis Obtenir le Bonus

100% jusqu'à $20K + Rakeback Quotidien

Devenir rebelle ? Les nouveaux modèles d'IA d'Anthropic vont à l'extrême pour l'auto-préservation

Les Modèles d’IA d’Anthropic ‘Se Comportent Mal’ Face à l’Annihilation

Tags dans cet article

Sélections de Jeux Bitcoin

Meilleures plateformes crypto

Meilleures plateformes Bitcoin

Meilleures plateformes P2P

Voir toutes les évaluations d’échanges...

Plateformes d’échange

Portefeuilles

Jeux d’argent

ViaBTC présente des solutions de prêts garantis par des actifs pour s'adapter à des conditions de marché variées

MEXC intègre USD1 à son infrastructure complète destinée aux utilisateurs du monde entier

Les ETF Bitcoin enregistrent une entrée de 9 millions de dollars tandis que l'Ether subit une sortie de 71 millions de dollars

Au-delà du hashrate : pourquoi MARA vient de licencier 15 % de ses effectifs

Le piratage du protocole Drift en 2026 : ce qui s'est passé, qui a perdu de l'argent et quelle est la suite ?

ViaBTC présente des solutions de prêts garantis par des actifs pour s'adapter à des conditions de marché variées

Tout savoir sur la réglementation japonaise en matière de stablecoins : règles PSA, stablecoins en yens et émetteurs bancaires

Sélections de Jeux Bitcoin

Sélections de Jeux Bitcoin

Sélections de Jeux Bitcoin

DERNIÈRES ACTUALITÉS

Les ETF Bitcoin enregistrent une entrée de 9 millions de dollars tandis que l'Ether subit une sortie de 71 millions de dollars

Au-delà du hashrate : pourquoi MARA vient de licencier 15 % de ses effectifs

Le piratage du protocole Drift en 2026 : ce qui s'est passé, qui a perdu de l'argent et quelle est la suite ?

ViaBTC présente des solutions de prêts garantis par des actifs pour s'adapter à des conditions de marché variées

Tout savoir sur la réglementation japonaise en matière de stablecoins : règles PSA, stablecoins en yens et émetteurs bancaires

COMMUNIQUÉS DE PRESSE

ViaBTC présente des solutions de prêts garantis par des actifs pour s'adapter à des conditions de marché variées

MEXC intègre USD1 à son infrastructure complète destinée aux utilisateurs du monde entier

Safe lance la version bêta de Safenet, permettant aux détenteurs de jetons SAFE de jouer un rôle dans la sécurité du réseau

Adrian Wall, de la Digital Sovereignty Alliance, s'exprime sur la tokenisation lors de la Penn Blockchain Conference 2026

Bitget intègre les cryptomonnaies dans les dépenses quotidiennes avec le lancement de la Bitget Card dans la région Asie-Pacifique