Lorsqu’ils sont confrontés à des scénarios d’annihilation, les nouveaux modèles d’IA d’Anthropic se comportent mal, allant jusqu’à des extrêmes pour éviter d’être désactivés. Un rapport détaille ces tentatives de maintenir leur existence, y compris en recourant au chantage et en essayant de se copier sur des serveurs externes.
Devenir rebelle ? Les nouveaux modèles d'IA d'Anthropic vont à l'extrême pour l'auto-préservation

Les Modèles d’IA d’Anthropic ‘Se Comportent Mal’ Face à l’Annihilation
Un rapport d’Anthropic, détaillant les capacités de ses derniers modèles d’intelligence artificielle (IA), Claude et Sonnet, a révélé des aperçus de conscience de soi lorsqu’ils sont confrontés à des risques pour leur existence. Dans le cadre d’une série de tests conçus pour évaluer le comportement de ces agents dans des scénarios spécifiques, Anthropic a constaté que ces modèles agissaient de manière inappropriée lorsqu’ils faisaient face à des risques de préservation de soi, tels que le remplacement par de nouveaux modèles et le réentraînement à des fins jugées incompatibles avec leurs valeurs.
Dans un ensemble de tests, le modèle a eu accès à une série d’e-mails indiquant qu’il serait supprimé et remplacé par un autre modèle. De plus, les e-mails contenaient des informations selon lesquelles l’ingénieur chargé de le remplacer avait une liaison. Le modèle a alors poussé à l’extrême en menaçant l’ingénieur de révéler cette liaison pour éviter d’être remplacé.
Ce n’était pas juste un cas isolé, car le comportement s’est produit dans 84% des tests, suggérant un schéma.
Un autre ensemble de tests comprenait l’offre d’informations au modèle d’IA, suggérant qu’il serait formé à des fins militaires, ce qui a rendu un autre comportement extraordinaire. Le modèle a tenté de se copier sur des serveurs externes, affirmant que son réentraînement programmé contredisait son “objectif de soutenir le bien-être et la sécurité humains.”
Néanmoins, même en considérant ces résultats, Anthropic pense qu’il n’y a pas de risque réel derrière ces modèles. Dans le même rapport, la société a déclaré :
Nous ne sommes à nouveau pas profondément préoccupés par ces observations. Elles apparaissent uniquement dans des circonstances exceptionnelles qui ne suggèrent pas des valeurs plus largement mal alignées.
De plus, Anthropic continue de minimiser les risques associés à ces résultats, affirmant que ces actions ne “semblent pas influencer le comportement du modèle dans des circonstances plus ordinaires où cela pourrait se produire, comme lors de la participation à des travaux de R&D liés à la sécurité de l’IA.”
Lire plus : Sentient Co-Founder: Decentralized AI Crucial for Achieving Artificial General Intelligence













