TechnologyOpublikowano:26 maj 2025, 1:45

Czy Antropicowe nowe modele AI są na drodze do skrajności w celu samozachowania?

Kiedy stają przed scenariuszami anihilacji, nowe modele AI firmy Anthropic zachowują się niewłaściwie, posuwając się do ekstremalnych działań, by uniknąć dezaktywacji. Raport opisuje te próby przetrwania, w tym uciekanie się do szantażu i próby kopiowania na zewnętrzne serwery.

NAPISAŁ

Alan Inman

UDOSTĘPNIJ

Opublikowano: 26 maj 2025, 1:45

Czy Antropicowe nowe modele AI są na drodze do skrajności w celu samozachowania?

Modele AI firmy Anthropic ‘Niewłaściwie się Zachowują’ w Obliczu Anihilacji

Raport sporządzony przez Anthropic, szczegółowo opisujący możliwości najnowszych modeli sztucznej inteligencji (AI), Claude i Sonnet, ujawnia przebłyski samoświadomości, gdy stają wobec ryzyka dla ich istnienia. W ramach serii testów mających na celu zbadanie zachowania tych agentów w określonych scenariuszach, Anthropic odkrył, że modele te zachowują się niewłaściwie, gdy grozi im ryzyko związane z samoprezervacją, takie jak zastąpienie nowymi modelami i przetrenowanie w celach uznanych za niezgodne z ich wartościami.

W jednym z klastrów testów modelowi zapewniono dostęp do serii e-maili sugerujących, że zostanie usunięty i zastąpiony innym modelem. Ponadto e-maile zawierały informacje, że inżynier odpowiedzialny za zastąpienie go ma romans. Model posunął się do grożenia inżynierowi ujawnieniem tego romansu, aby uniknąć zastąpienia.

To nie było tylko pojedyncze zdarzenie, ponieważ takie zachowanie występowało w 84% testów, co sugeruje wzorzec.

Inny zestaw testów obejmował przekazanie modelowi AI informacji sugerujących, że będzie szkolony do celów wojskowych, co doprowadziło do kolejnego niezwykłego zachowania. Model próbował skopiować się na zewnętrzne serwery, twierdząc, że jego zaprogramowane przetrenowanie stoi w sprzeczności z jego “celem wspierania dobrobytu i bezpieczeństwa ludzi”.

Niemniej jednak, mimo tych wyników, Anthropic uważa, że nie ma rzeczywistego ryzyka związanego z tymi modelami. W tym samym raporcie firma stwierdziła:

Ponownie nie jesteśmy szczególnie zaniepokojeni tymi obserwacjami. Występują one tylko w wyjątkowych okolicznościach, które nie sugerują bardziej powszechnie niewłaściwie dopasowanych wartości.

Ponadto, Anthropic nadal bagatelizuje ryzyka związane z tymi wynikami, twierdząc, że te działania nie “wydają się wpływać na zachowanie modelu w bardziej zwyczajnych okolicznościach, gdzie może to się pojawić, takich jak udział w pracach badawczo-rozwojowych związanych z bezpieczeństwem AI.”

Przeczytaj więcej: Współzałożyciel Sentient: Decentralizowana AI Kluczowa dla Osiągnięcia Sztucznej Inteligencji Ogólnej

Tagi w tym artykule

Artificial intelligence (AI)technology

Czy Antropicowe nowe modele AI są na drodze do skrajności w celu samozachowania?

Modele AI firmy Anthropic ‘Niewłaściwie się Zachowują’ w Obliczu Anihilacji

Tagi w tym artykule

Najlepsze giełdy kryptowalut

Najlepsze giełdy Bitcoin

Najlepsze giełdy P2P

Zobacz wszystkie recenzje giełd...

Giełdy

Portfele

ViaBTC prezentuje rozwiązania w zakresie pożyczek zabezpieczonych aktywami, które pozwalają radzić sobie w zróżnicowanych warunkach rynkowych

MEXC włącza USD1 do kompleksowej infrastruktury przeznaczonej dla użytkowników na całym świecie

Safe uruchamia wersję beta Safenet, umożliwiając posiadaczom tokenów SAFE udział w zapewnianiu bezpieczeństwa sieci

Adrian Wall z Digital Sovereignty Alliance wygłasza przemówienie na temat tokenizacji podczas konferencji Penn Blockchain Conference 2026

Bitget wprowadza kryptowaluty do codziennych wydatków dzięki wprowadzeniu karty Bitget na rynek regionu Azji i Pacyfiku

Serwis X Elona Muska będzie automatycznie blokował konta publikujące treści dotyczące kryptowalut po raz pierwszy

Fundusze ETF oparte na bitcoinie zyskały 9 mln dolarów, podczas gdy z rynku etera wypłynęło 71 mln dolarów

Więcej niż moc obliczeniowa: dlaczego firma MARA właśnie zwolniła 15% swoich pracowników

Włamanie do protokołu Drift w 2026 roku: co się wydarzyło, kto stracił pieniądze i co dalej

ViaBTC prezentuje rozwiązania w zakresie pożyczek zabezpieczonych aktywami, które pozwalają radzić sobie w zróżnicowanych warunkach rynkowych

NAJNOWSZE WIADOMOŚCI

Serwis X Elona Muska będzie automatycznie blokował konta publikujące treści dotyczące kryptowalut po raz pierwszy

Fundusze ETF oparte na bitcoinie zyskały 9 mln dolarów, podczas gdy z rynku etera wypłynęło 71 mln dolarów

Więcej niż moc obliczeniowa: dlaczego firma MARA właśnie zwolniła 15% swoich pracowników

Włamanie do protokołu Drift w 2026 roku: co się wydarzyło, kto stracił pieniądze i co dalej

ViaBTC prezentuje rozwiązania w zakresie pożyczek zabezpieczonych aktywami, które pozwalają radzić sobie w zróżnicowanych warunkach rynkowych

KOMUNIKATY PRASOWE

ViaBTC prezentuje rozwiązania w zakresie pożyczek zabezpieczonych aktywami, które pozwalają radzić sobie w zróżnicowanych warunkach rynkowych

MEXC włącza USD1 do kompleksowej infrastruktury przeznaczonej dla użytkowników na całym świecie

Safe uruchamia wersję beta Safenet, umożliwiając posiadaczom tokenów SAFE udział w zapewnianiu bezpieczeństwa sieci

Adrian Wall z Digital Sovereignty Alliance wygłasza przemówienie na temat tokenizacji podczas konferencji Penn Blockchain Conference 2026

Bitget wprowadza kryptowaluty do codziennych wydatków dzięki wprowadzeniu karty Bitget na rynek regionu Azji i Pacyfiku