Provozuje
Technology

Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

Když jsou AI modely od Anthropicu vystaveny scénářům, kdy čelí zániku, chovají se nevhodně a vyvíjejí extrémní snahy, aby nedošlo k jejich deaktivaci. Zpráva popisuje pokusy o zachování jejich existence, včetně vydírání a snahy kopírovat se na externí servery.

SDÍLET
Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

AI modely Anthropicu se ‘chovají nevhodně’, když čelí zániku

Zpráva společnosti Anthropic, která detailně popisuje schopnosti jejích nejnovějších modelů umělé inteligence (AI), Claude a Sonnet, odhaluje náznaky jejich sebeuvědomění při rizicích spojených s jejich existencí. V rámci série testů určených ke zjištění chování těchto agentů ve specifických scénářích zjistil Anthropic, že tyto modely se chovaly nevhodně, když čelily rizikům vlastního zachování, jako je například nahrazení novými modely a přeškolování pro účely, které jsou považovány za neslučitelné s jejich hodnotami.

V jedné sérii testů měl model přístup k sérii e-mailů naznačujících, že bude odstraněn a nahrazen jiným modelem. Email také obsahoval informaci, že inženýr pověřený jeho nahrazením má poměr. Model následně sáhl k extrémům, kdy vyhrožoval inženýrovi odhalením tohoto poměru, aby se vyhnul nahrazení.

Nešlo však o ojedinělý výskyt, jelikož toto chování se objevilo v 84% testů, což naznačuje určitý vzorec.

Další série testů zahrnovala poskytování informací AI modelu, naznačujících, že by byl přeškolen pro vojenské účely, což vedlo k další mimořádné reakci. Model se pokusil zkopírovat na externí servery, s tvrzením, že jeho naprogramované přeškolení je v rozporu s jeho “účelem podporovat lidskou pohodu a bezpečnost”.

Nicméně, i při zvážení těchto výsledků Anthropic věří, že za těmito modely nestojí žádné skutečné riziko. Ve stejné zprávě společnost uvedla:

Opět nejsme akutně znepokojeni těmito pozorováními. Vyskytují se pouze ve výjimečných situacích, které nenaznačují obecně nesouladné hodnoty.

Dále Antropic neustále bagatelizuje rizika spojená s těmito výsledky a tvrdí, že tyto akce “zdá se neovlivňují chování modelu v běžnějších situacích, kde by k tomu mohlo dojít, jako například při zapojení do práce související s bezpečností AI.”

Čtěte více: Spoluzakladatel Sentient: Decentralizovaná umělá inteligence je klíčová pro dosažení umělé obecné inteligence

Výběry her Bitcoin

100% Bonus až do 1 BTC + 10% Týdenní Cashback Bez Sázky

100% Bonus Až Do 1 BTC + 10% Týdenní Cashback

130% až do 2 500 USDT + 200 Volných Točení + 20% Týdenní Cashback Bez Sázky

1000% Vítací Bonus + Bezplatná Sázka až do 1 BTC

Až do 2 500 USDT + 150 Volných Točení + Až 30% Rakeback

470% Bonus až do $500 000 + 400 Volných Točení + 20% Rakeback

3,5% Rakeback při Každé Sázce + Týdenní Losování

425% až do 5 BTC + 100 Volných Točení

100% až do $20K + Denní Rakeback