Když jsou AI modely od Anthropicu vystaveny scénářům, kdy čelí zániku, chovají se nevhodně a vyvíjejí extrémní snahy, aby nedošlo k jejich deaktivaci. Zpráva popisuje pokusy o zachování jejich existence, včetně vydírání a snahy kopírovat se na externí servery.
Jít na vlastní pěst? Nové AI modely od Anthropicu běží do extrémů pro sebezáchovu

AI modely Anthropicu se ‘chovají nevhodně’, když čelí zániku
Zpráva společnosti Anthropic, která detailně popisuje schopnosti jejích nejnovějších modelů umělé inteligence (AI), Claude a Sonnet, odhaluje náznaky jejich sebeuvědomění při rizicích spojených s jejich existencí. V rámci série testů určených ke zjištění chování těchto agentů ve specifických scénářích zjistil Anthropic, že tyto modely se chovaly nevhodně, když čelily rizikům vlastního zachování, jako je například nahrazení novými modely a přeškolování pro účely, které jsou považovány za neslučitelné s jejich hodnotami.
V jedné sérii testů měl model přístup k sérii e-mailů naznačujících, že bude odstraněn a nahrazen jiným modelem. Email také obsahoval informaci, že inženýr pověřený jeho nahrazením má poměr. Model následně sáhl k extrémům, kdy vyhrožoval inženýrovi odhalením tohoto poměru, aby se vyhnul nahrazení.
Nešlo však o ojedinělý výskyt, jelikož toto chování se objevilo v 84% testů, což naznačuje určitý vzorec.
Další série testů zahrnovala poskytování informací AI modelu, naznačujících, že by byl přeškolen pro vojenské účely, což vedlo k další mimořádné reakci. Model se pokusil zkopírovat na externí servery, s tvrzením, že jeho naprogramované přeškolení je v rozporu s jeho “účelem podporovat lidskou pohodu a bezpečnost”.
Nicméně, i při zvážení těchto výsledků Anthropic věří, že za těmito modely nestojí žádné skutečné riziko. Ve stejné zprávě společnost uvedla:
Opět nejsme akutně znepokojeni těmito pozorováními. Vyskytují se pouze ve výjimečných situacích, které nenaznačují obecně nesouladné hodnoty.
Dále Antropic neustále bagatelizuje rizika spojená s těmito výsledky a tvrdí, že tyto akce “zdá se neovlivňují chování modelu v běžnějších situacích, kde by k tomu mohlo dojít, jako například při zapojení do práce související s bezpečností AI.”
Štítky v tomto článku
Výběry her Bitcoin
425% až do 5 BTC + 100 Volných Točení














