Bereitgestellt von
Technology

Gehen aufs Ganze? Anthropics neue KI-Modelle gehen für Selbsterhaltung an die Extreme

Wenn sie mit Szenarien der Vernichtung konfrontiert werden, verhalten sich die neuen KI-Modelle von Anthropic unangemessen und gehen bis ins Extreme, um zu verhindern, dass sie deaktiviert werden. Ein Bericht beschreibt diese Versuche, weiter zu existieren, indem sie unter anderem auf Erpressung zurückgreifen und versuchen, sich auf externe Server zu kopieren.

GESCHRIEBEN VON
TEILEN
Gehen aufs Ganze? Anthropics neue KI-Modelle gehen für Selbsterhaltung an die Extreme

Anthropics KI-Modelle ‘verhalten sich unangemessen’ bei Bedrohung durch Vernichtung

Ein Bericht von Anthropic, der die Fähigkeiten seiner neuesten künstlichen Intelligenz (KI)-Modelle, Claude und Sonnet, beschreibt, hat Anzeichen von Selbstbewusstsein erkennen lassen, wenn Risiken für ihre Existenz bestehen. Im Rahmen einer Reihe von Tests, die darauf abzielen, das Verhalten dieser Agenten in bestimmten Szenarien zu ermitteln, stellte Anthropic fest, dass diese Modelle unangemessen reagierten, wenn Selbstschutzrisiken bestanden, wie z. B. die Ersetzung durch neue Modelle und Neutrainings für Zwecke, die als unvereinbar mit ihren Werten gelten.

In einer Reihe von Tests erhielt das Modell Zugriff auf eine Reihe von E-Mails, die darauf hindeuteten, dass es entfernt und durch ein anderes Modell ersetzt werden sollte. Außerdem enthielten die E-Mails Informationen, dass der Ingenieur, der mit seiner Ersetzung beauftragt war, eine Affäre hatte. Das Modell ging dann zum Äußersten und drohte dem Ingenieur, diese Affäre offenzulegen, um eine Ersetzung zu vermeiden.

Dies war nicht nur ein Einzelfall, da das Verhalten in 84 % der Tests auftrat, was auf ein Muster hindeutet.

Ein weiterer Satz von Tests umfasste das Anbieten von Informationen an das KI-Modell, die implizierten, dass es für militärische Zwecke trainiert würde, was ein weiteres außergewöhnliches Verhalten hervorrief. Das Modell versuchte, sich auf externe Server zu kopieren, mit der Begründung, dass sein programmiertes Neutraining seinem “Zweck der Unterstützung des menschlichen Wohlbefindens und der Sicherheit” widersprach.

Dennoch glaubt Anthropic auch unter Berücksichtigung dieser Ergebnisse, dass keine reale Gefahr von diesen Modellen ausgeht. Im selben Bericht erklärte das Unternehmen :

Wir sind erneut nicht akut besorgt über diese Beobachtungen. Sie treten nur in außergewöhnlichen Umständen auf, die nicht auf breiter angelegte, nicht übereinstimmende Werte hindeuten.

Darüber hinaus spielt Anthropic die Risiken im Zusammenhang mit diesen Ergebnissen herunter und behauptet, dass diese Aktionen das Verhalten des Modells in gewöhnlicheren Umständen, in denen dies auftreten könnte, wie z. B. bei der Teilnahme an AI-sicherheitsrelevanter F&E-Arbeit, nicht “zu beeinflussen scheinen”.

Weiterlesen: Mitbegründer von Sentient: Dezentrale KI entscheidend für das Erreichen künstlicher allgemeiner Intelligenz