TechnologyPublikováno:26. 5. 2025 1:45

Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

Když jsou AI modely od Anthropicu vystaveny scénářům, kdy čelí zániku, chovají se nevhodně a vyvíjejí extrémní snahy, aby nedošlo k jejich deaktivaci. Zpráva popisuje pokusy o zachování jejich existence, včetně vydírání a snahy kopírovat se na externí servery.

NAPSAL

Alan Inman

SDÍLET

Publikováno: 26. 5. 2025 1:45

Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

AI modely Anthropicu se ‘chovají nevhodně’, když čelí zániku

Zpráva společnosti Anthropic, která detailně popisuje schopnosti jejích nejnovějších modelů umělé inteligence (AI), Claude a Sonnet, odhaluje náznaky jejich sebeuvědomění při rizicích spojených s jejich existencí. V rámci série testů určených ke zjištění chování těchto agentů ve specifických scénářích zjistil Anthropic, že tyto modely se chovaly nevhodně, když čelily rizikům vlastního zachování, jako je například nahrazení novými modely a přeškolování pro účely, které jsou považovány za neslučitelné s jejich hodnotami.

V jedné sérii testů měl model přístup k sérii e-mailů naznačujících, že bude odstraněn a nahrazen jiným modelem. Email také obsahoval informaci, že inženýr pověřený jeho nahrazením má poměr. Model následně sáhl k extrémům, kdy vyhrožoval inženýrovi odhalením tohoto poměru, aby se vyhnul nahrazení.

Nešlo však o ojedinělý výskyt, jelikož toto chování se objevilo v 84% testů, což naznačuje určitý vzorec.

Další série testů zahrnovala poskytování informací AI modelu, naznačujících, že by byl přeškolen pro vojenské účely, což vedlo k další mimořádné reakci. Model se pokusil zkopírovat na externí servery, s tvrzením, že jeho naprogramované přeškolení je v rozporu s jeho “účelem podporovat lidskou pohodu a bezpečnost”.

Nicméně, i při zvážení těchto výsledků Anthropic věří, že za těmito modely nestojí žádné skutečné riziko. Ve stejné zprávě společnost uvedla:

Opět nejsme akutně znepokojeni těmito pozorováními. Vyskytují se pouze ve výjimečných situacích, které nenaznačují obecně nesouladné hodnoty.

Dále Antropic neustále bagatelizuje rizika spojená s těmito výsledky a tvrdí, že tyto akce “zdá se neovlivňují chování modelu v běžnějších situacích, kde by k tomu mohlo dojít, jako například při zapojení do práce související s bezpečností AI.”

Čtěte více: Spoluzakladatel Sentient: Decentralizovaná umělá inteligence je klíčová pro dosažení umělé obecné inteligence

Štítky v tomto článku

Artificial intelligence (AI)technology

Výběry her Bitcoin

Betpanda

Recenze Získat Bonus

100% Bonus až do 1 BTC + 10% Týdenní Cashback Bez Sázky

Cryptorino

Recenze Získat Bonus

100% Bonus Až Do 1 BTC + 10% Týdenní Cashback

Parimatch

Recenze Získat Bonus

1000% Vítací Bonus + Bezplatná Sázka až do 1 BTC

Cloudbet

Recenze Získat Bonus

Až do 2 500 USDT + 150 Volných Točení + Až 30% Rakeback

BC.Game

Recenze Získat Bonus

470% Bonus až do $500 000 + 400 Volných Točení + 20% Rakeback

Stake

Recenze Získat Bonus

3,5% Rakeback při Každé Sázce + Týdenní Losování

Vave

Recenze Získat Bonus

425% až do 5 BTC + 100 Volných Točení

Punkz

Recenze Získat Bonus

100% až do $20K + Denní Rakeback

Metaspins

Recenze Získat Bonus

100% Bonus až do 1 BTC

Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

AI modely Anthropicu se ‘chovají nevhodně’, když čelí zániku

Štítky v tomto článku

Výběry her Bitcoin

Nejlepší krypto burzy

Nejlepší bitcoinové burzy

Nejlepší P2P burzy

Zobrazit všechny recenze burz...

Burzy

Peněženky

Hazardní hry

Konec monopolu RWA na hodnotu: Zoomex spouští akci „SpaceX Token Airdrop Carnival“ s odměnami v celkové výši 300 000 dolarů

Okamžitá kryptoměnová burza CCE.Cash umožňuje rychlé výměny mezi řetězci s nízkými poplatky

Tyga se připojil k VIP programu 1win, který spojuje kryptoměny a zábavu

Zoomex spouští ZoomexStocks: Obchodujte s akciemi z celého světa pomocí USDT + časově omezená kampaň na vrácení poplatků

Síť TRON posiluje svou roli v infrastruktuře agentické umělé inteligence v souvislosti se spuštěním platformy B.AI

Singapurská Gulf Bank představuje službu pro vydávání a zpětný odkup stablecoinů určenou pro institucionální klienty

Konec monopolu RWA na hodnotu: Zoomex spouští akci „SpaceX Token Airdrop Carnival“ s odměnami v celkové výši 300 000 dolarů

Ekonom navrhuje zavedení národní stablecoinu v amerických dolarech, aby se ve Venezuele odstranily devizové kontroly

Hackerský útok na sankcionovanou burzu Grinex způsobil škodu ve výši 13,7 milionu dolarů; viní zahraniční zpravodajské služby

Veřejné těžební společnosti prodávají rekordní množství bitcoinů, zatímco se odvětví rozděluje na zastánce prodeje a zastánce kvalitního růstu

Výběry her Bitcoin

Výběry her Bitcoin

Výběry her Bitcoin

TISKOVÉ ZPRÁVY

Konec monopolu RWA na hodnotu: Zoomex spouští akci „SpaceX Token Airdrop Carnival“ s odměnami v celkové výši 300 000 dolarů

Okamžitá kryptoměnová burza CCE.Cash umožňuje rychlé výměny mezi řetězci s nízkými poplatky

Tyga se připojil k VIP programu 1win, který spojuje kryptoměny a zábavu

Zoomex spouští ZoomexStocks: Obchodujte s akciemi z celého světa pomocí USDT + časově omezená kampaň na vrácení poplatků

Síť TRON posiluje svou roli v infrastruktuře agentické umělé inteligence v souvislosti se spuštěním platformy B.AI

NEJNOVĚJŠÍ ZPRÁVY

Singapurská Gulf Bank představuje službu pro vydávání a zpětný odkup stablecoinů určenou pro institucionální klienty

Konec monopolu RWA na hodnotu: Zoomex spouští akci „SpaceX Token Airdrop Carnival“ s odměnami v celkové výši 300 000 dolarů

Ekonom navrhuje zavedení národní stablecoinu v amerických dolarech, aby se ve Venezuele odstranily devizové kontroly

Hackerský útok na sankcionovanou burzu Grinex způsobil škodu ve výši 13,7 milionu dolarů; viní zahraniční zpravodajské služby

Veřejné těžební společnosti prodávají rekordní množství bitcoinů, zatímco se odvětví rozděluje na zastánce prodeje a zastánce kvalitního růstu