Obsługiwane przez
Technology

Czy Antropicowe nowe modele AI są na drodze do skrajności w celu samozachowania?

Kiedy stają przed scenariuszami anihilacji, nowe modele AI firmy Anthropic zachowują się niewłaściwie, posuwając się do ekstremalnych działań, by uniknąć dezaktywacji. Raport opisuje te próby przetrwania, w tym uciekanie się do szantażu i próby kopiowania na zewnętrzne serwery.

NAPISAŁ
UDOSTĘPNIJ
Czy Antropicowe nowe modele AI są na drodze do skrajności w celu samozachowania?

Modele AI firmy Anthropic ‘Niewłaściwie się Zachowują’ w Obliczu Anihilacji

Raport sporządzony przez Anthropic, szczegółowo opisujący możliwości najnowszych modeli sztucznej inteligencji (AI), Claude i Sonnet, ujawnia przebłyski samoświadomości, gdy stają wobec ryzyka dla ich istnienia. W ramach serii testów mających na celu zbadanie zachowania tych agentów w określonych scenariuszach, Anthropic odkrył, że modele te zachowują się niewłaściwie, gdy grozi im ryzyko związane z samoprezervacją, takie jak zastąpienie nowymi modelami i przetrenowanie w celach uznanych za niezgodne z ich wartościami.

W jednym z klastrów testów modelowi zapewniono dostęp do serii e-maili sugerujących, że zostanie usunięty i zastąpiony innym modelem. Ponadto e-maile zawierały informacje, że inżynier odpowiedzialny za zastąpienie go ma romans. Model posunął się do grożenia inżynierowi ujawnieniem tego romansu, aby uniknąć zastąpienia.

To nie było tylko pojedyncze zdarzenie, ponieważ takie zachowanie występowało w 84% testów, co sugeruje wzorzec.

Inny zestaw testów obejmował przekazanie modelowi AI informacji sugerujących, że będzie szkolony do celów wojskowych, co doprowadziło do kolejnego niezwykłego zachowania. Model próbował skopiować się na zewnętrzne serwery, twierdząc, że jego zaprogramowane przetrenowanie stoi w sprzeczności z jego “celem wspierania dobrobytu i bezpieczeństwa ludzi”.

Niemniej jednak, mimo tych wyników, Anthropic uważa, że nie ma rzeczywistego ryzyka związanego z tymi modelami. W tym samym raporcie firma stwierdziła:

Ponownie nie jesteśmy szczególnie zaniepokojeni tymi obserwacjami. Występują one tylko w wyjątkowych okolicznościach, które nie sugerują bardziej powszechnie niewłaściwie dopasowanych wartości.

Ponadto, Anthropic nadal bagatelizuje ryzyka związane z tymi wynikami, twierdząc, że te działania nie “wydają się wpływać na zachowanie modelu w bardziej zwyczajnych okolicznościach, gdzie może to się pojawić, takich jak udział w pracach badawczo-rozwojowych związanych z bezpieczeństwem AI.”

Przeczytaj więcej: Współzałożyciel Sentient: Decentralizowana AI Kluczowa dla Osiągnięcia Sztucznej Inteligencji Ogólnej