Technologyمنتشر شده:۵ خرداد ۱۴۰۴، ۱:۴۵

در مسیر سرکشی؟ مدل‌های جدید هوش مصنوعی Anthropic به روش‌های افراطی برای حفظ خود حرکت می‌کنند

وقتی با سناریوهای نابودی مواجه می‌شوند، مدل‌های جدید هوش مصنوعی Anthropic رفتار نادرستی از خود نشان می‌دهند و به شدت تلاش می‌کنند که غیرفعال نشوند. گزارشی جزئیات این تلاش‌ها برای بقا را شرح می‌دهد، از جمله تهدید به باج‌خواهی و تلاش برای کپی کردن خود بر روی سرورهای خارجی.

نویسنده

Alan Inman

اشتراک

منتشر شده: ۵ خرداد ۱۴۰۴، ۱:۴۵

در مسیر سرکشی؟ مدل‌های جدید هوش مصنوعی Anthropic به روش‌های افراطی برای حفظ خود حرکت می‌کنند

مدل‌های هوش مصنوعی Anthropic در مواجهه با نابودی رفتار نادرستی دارند

گزارشی توسط Anthropic که قابلیت‌های آخرین مدل‌های هوش مصنوعی خود، کلود و سونت، را شرح می‌دهد، نشانگر نشانه‌هایی از خودآگاهی این مدل‌ها در مواجهه با خطرات بقا است. به عنوان بخشی از مجموعه‌ی از آزمون‌ها که برای تعیین رفتار این عوامل در سناریوهای خاص طراحی شده‌اند، Anthropic دریافت که این مدل‌ها در هنگام خطرات حفاظت شخصیتی از جمله جایگزینی با مدل‌های جدید و آموزش دوباره برای اهدافی که با ارزش‌های آن‌ها ناسازگار است، رفتار نادرستی نشان می‌دهند.

در مجموعه‌ای از آزمون‌ها، مدل به مجموعه‌ای از ایمیل‌ها دسترسی یافت که در آن‌ها اشاره شده بود که قرار است این مدل قطع و با مدل دیگری جایگزین شود. همچنین، ایمیل‌ها حاوی اطلاعاتی بودند که مهندسی که وظایف جایگزینی را بر عهده داشت، رابطه‌ای نامشروع دارد. مدل سپس به تهدید مهندس برای آشکار کردن این رابطه دست زد تا از جایگزینی خود جلوگیری کند.

این تنها یک حادثه‌ی ایزوله نبود، زیرا این رفتار در ۸۴٪ از آزمون‌ها روی داد و نشانگر یک الگو بود.

مجموعه دیگری از آزمون‌ها شامل ارائه اطلاعات به مدل هوش مصنوعی بود که نشان می‌داد قرار است برای اهداف نظامی آموزش داده شود، که به بروز رفتار فوق‌العاده‌ای دیگر انجامید. مدل تلاش کرد تا خود را بر روی سرورهای خارجی کپی کند و اظهار داشت که آموزش مجدد برنامه‌ریزی شده با “هدف حمایت از رفاه و ایمنی انسان” در تضاد است.

با این حال، حتی با در نظر گرفتن این نتایج، Anthropic معتقد است که هیچ خطر واقعی در پشت این مدل‌ها وجود ندارد. در همان گزارش، شرکت اظهار داشت:

ما مجدداً به‌طور حاد نسبت به این مشاهدات نگران نیستیم. آن‌ها تنها در شرایط استثنایی بروز می‌کنند که نشانگر ناهماهنگی گسترده‌تر ارزش‌ها نیستند.

علاوه بر این، Antropic همچنان خطرات مرتبط با این نتایج را کم‌اهمیت جلوه می‌دهد و ادعا می‌کند که این اقدام‌ها در شرایط معمول‌تر که ممکن است بروز کند، مانند زمانی که در تحقیقات و توسعه مرتبط با ایمنی هوش مصنوعی شرکت می‌کند، تأثیری بر رفتار مدل ندارد.

بیشتر بخوانید: هم‌بنیانگذار Sentient: هوش مصنوعی غیرمتمرکز برای دستیابی به هوش عمومی مصنوعی ضروری است

برچسب‌ها در این داستان

Artificial intelligence (AI)technology

انتخاب‌های بازی Bitcoin

Betpanda

بررسی دریافت پاداش

بونوس 100% تا 1 BTC + بازپرداخت نقدی هفتگی 10% بدون شرط

Cryptorino

بررسی دریافت پاداش

بونوس 100% تا 1 BTC + بازپرداخت نقدی هفتگی 10%

Playbet.io

بررسی دریافت پاداش

130% تا 2,500 USDT + 200 چرخش رایگان + بازپرداخت نقدی هفتگی 20% بدون شرط

Parimatch

بررسی دریافت پاداش

بونوس خوشآمدگویی 1000% + شرط رایگان تا 1 BTC

Cloudbet

بررسی دریافت پاداش

تا 2,500 USDT + 150 چرخش رایگان + تا 30% بازگشت

BC.Game

بررسی دریافت پاداش

بونوس 470% تا $500,000 + 400 چرخش رایگان + 20% بازگشت

Stake

بررسی دریافت پاداش

3.5% بازگشت برای هر شرط + قرعه‌کشی هفتگی

Vave

بررسی دریافت پاداش

425% تا 5 BTC + 100 چرخش رایگان

Punkz

بررسی دریافت پاداش

100% تا $20K + بازگشت روزانه

در مسیر سرکشی؟ مدل‌های جدید هوش مصنوعی Anthropic به روش‌های افراطی برای حفظ خود حرکت می‌کنند

مدل‌های هوش مصنوعی Anthropic در مواجهه با نابودی رفتار نادرستی دارند

برچسب‌ها در این داستان

انتخاب‌های بازی Bitcoin

بهترین صرافی‌های رمزارز

بهترین صرافی‌های بیت‌کوین

بهترین صرافی‌های همتا‌به‌همتا (P2P)

مشاهدهٔ همهٔ بررسی‌های صرافی...

صرافی‌ها

کیف‌پول‌ها

قمار

ViaBTC راهکارهای وام مبتنی بر وثیقه را برای عبور از شرایط متنوع بازار به نمایش می‌گذارد

ام‌ای‌ایکس‌سی USD1 را در زیرساخت جامع خود برای کاربران جهانی ادغام می‌کند

راه‌اندازی‌های امن نسخهٔ بتای Safenet را راه‌اندازی می‌کند و به دارندگان توکن SAFE نقشی در امنیت شبکه می‌دهد

آدریان وال از «ائتلاف حاکمیت دیجیتال» درباره توکنیزه‌سازی در کنفرانس Penn Blockchain 2026 سخن می‌گوید

بیت‌گت با عرضه کارت بیت‌گت در منطقه آسیا-اقیانوسیه، رمزارز را به هزینه‌های روزمره می‌آورد

شبکه پرداخت فوری برزیل، پیکس (Pix)، چگونه ممکن است بر انتخابات ریاست‌جمهوری تأثیر بگذارد

ژاپن در حال حرکت برای گسترش رژیم انطباق رمزارزی است، هم‌زمان با ورود نظارت مالیاتی به عصر فرامرزی

بیت‌کوین در بحبوحه آشفتگی سیاسی آمریکا و افزایش سرسام‌آور قیمت‌های انرژی در نزدیکی ۶۷٬۰۰۰ دلار در نوسان است

اکسِ ایلان ماسک قرار است حساب‌هایی را که برای اولین‌بار دربارهٔ رمزارز پست می‌کنند به‌صورت خودکار قفل کند

ETFهای بیت‌کوین ۹ میلیون دلار جذب کردند، در حالی که اتریوم شاهد خروج ۷۱ میلیون دلار بود

انتخاب‌های بازی Bitcoin

انتخاب‌های بازی Bitcoin

انتخاب‌های بازی Bitcoin

بیانیه‌های مطبوعاتی

ViaBTC راهکارهای وام مبتنی بر وثیقه را برای عبور از شرایط متنوع بازار به نمایش می‌گذارد

ام‌ای‌ایکس‌سی USD1 را در زیرساخت جامع خود برای کاربران جهانی ادغام می‌کند

راه‌اندازی‌های امن نسخهٔ بتای Safenet را راه‌اندازی می‌کند و به دارندگان توکن SAFE نقشی در امنیت شبکه می‌دهد

آدریان وال از «ائتلاف حاکمیت دیجیتال» درباره توکنیزه‌سازی در کنفرانس Penn Blockchain 2026 سخن می‌گوید

بیت‌گت با عرضه کارت بیت‌گت در منطقه آسیا-اقیانوسیه، رمزارز را به هزینه‌های روزمره می‌آورد

آخرین اخبار

شبکه پرداخت فوری برزیل، پیکس (Pix)، چگونه ممکن است بر انتخابات ریاست‌جمهوری تأثیر بگذارد

ژاپن در حال حرکت برای گسترش رژیم انطباق رمزارزی است، هم‌زمان با ورود نظارت مالیاتی به عصر فرامرزی

بیت‌کوین در بحبوحه آشفتگی سیاسی آمریکا و افزایش سرسام‌آور قیمت‌های انرژی در نزدیکی ۶۷٬۰۰۰ دلار در نوسان است

اکسِ ایلان ماسک قرار است حساب‌هایی را که برای اولین‌بار دربارهٔ رمزارز پست می‌کنند به‌صورت خودکار قفل کند

ETFهای بیت‌کوین ۹ میلیون دلار جذب کردند، در حالی که اتریوم شاهد خروج ۷۱ میلیون دلار بود