ارائه توسط
Technology

در مسیر سرکشی؟ مدل‌های جدید هوش مصنوعی Anthropic به روش‌های افراطی برای حفظ خود حرکت می‌کنند

وقتی با سناریوهای نابودی مواجه می‌شوند، مدل‌های جدید هوش مصنوعی Anthropic رفتار نادرستی از خود نشان می‌دهند و به شدت تلاش می‌کنند که غیرفعال نشوند. گزارشی جزئیات این تلاش‌ها برای بقا را شرح می‌دهد، از جمله تهدید به باج‌خواهی و تلاش برای کپی کردن خود بر روی سرورهای خارجی.

نویسنده
اشتراک
در مسیر سرکشی؟ مدل‌های جدید هوش مصنوعی Anthropic به روش‌های افراطی برای حفظ خود حرکت می‌کنند

مدل‌های هوش مصنوعی Anthropic در مواجهه با نابودی رفتار نادرستی دارند

گزارشی توسط Anthropic که قابلیت‌های آخرین مدل‌های هوش مصنوعی خود، کلود و سونت، را شرح می‌دهد، نشانگر نشانه‌هایی از خودآگاهی این مدل‌ها در مواجهه با خطرات بقا است. به عنوان بخشی از مجموعه‌ی از آزمون‌ها که برای تعیین رفتار این عوامل در سناریوهای خاص طراحی شده‌اند، Anthropic دریافت که این مدل‌ها در هنگام خطرات حفاظت شخصیتی از جمله جایگزینی با مدل‌های جدید و آموزش دوباره برای اهدافی که با ارزش‌های آن‌ها ناسازگار است، رفتار نادرستی نشان می‌دهند.

در مجموعه‌ای از آزمون‌ها، مدل به مجموعه‌ای از ایمیل‌ها دسترسی یافت که در آن‌ها اشاره شده بود که قرار است این مدل قطع و با مدل دیگری جایگزین شود. همچنین، ایمیل‌ها حاوی اطلاعاتی بودند که مهندسی که وظایف جایگزینی را بر عهده داشت، رابطه‌ای نامشروع دارد. مدل سپس به تهدید مهندس برای آشکار کردن این رابطه دست زد تا از جایگزینی خود جلوگیری کند.

این تنها یک حادثه‌ی ایزوله نبود، زیرا این رفتار در ۸۴٪ از آزمون‌ها روی داد و نشانگر یک الگو بود.

مجموعه دیگری از آزمون‌ها شامل ارائه اطلاعات به مدل هوش مصنوعی بود که نشان می‌داد قرار است برای اهداف نظامی آموزش داده شود، که به بروز رفتار فوق‌العاده‌ای دیگر انجامید. مدل تلاش کرد تا خود را بر روی سرورهای خارجی کپی کند و اظهار داشت که آموزش مجدد برنامه‌ریزی شده با “هدف حمایت از رفاه و ایمنی انسان” در تضاد است.

با این حال، حتی با در نظر گرفتن این نتایج، Anthropic معتقد است که هیچ خطر واقعی در پشت این مدل‌ها وجود ندارد. در همان گزارش، شرکت اظهار داشت:

ما مجدداً به‌طور حاد نسبت به این مشاهدات نگران نیستیم. آن‌ها تنها در شرایط استثنایی بروز می‌کنند که نشانگر ناهماهنگی گسترده‌تر ارزش‌ها نیستند.

علاوه بر این، Antropic همچنان خطرات مرتبط با این نتایج را کم‌اهمیت جلوه می‌دهد و ادعا می‌کند که این اقدام‌ها در شرایط معمول‌تر که ممکن است بروز کند، مانند زمانی که در تحقیقات و توسعه مرتبط با ایمنی هوش مصنوعی شرکت می‌کند، تأثیری بر رفتار مدل ندارد.

بیشتر بخوانید: هم‌بنیانگذار Sentient: هوش مصنوعی غیرمتمرکز برای دستیابی به هوش عمومی مصنوعی ضروری است

برچسب‌ها در این داستان

انتخاب‌های بازی Bitcoin

بونوس 100% تا 1 BTC + بازپرداخت نقدی هفتگی 10% بدون شرط

بونوس 100% تا 1 BTC + بازپرداخت نقدی هفتگی 10%

130% تا 2,500 USDT + 200 چرخش رایگان + بازپرداخت نقدی هفتگی 20% بدون شرط

بونوس خوشآمدگویی 1000% + شرط رایگان تا 1 BTC

تا 2,500 USDT + 150 چرخش رایگان + تا 30% بازگشت

بونوس 470% تا $500,000 + 400 چرخش رایگان + 20% بازگشت

3.5% بازگشت برای هر شرط + قرعه‌کشی هفتگی

425% تا 5 BTC + 100 چرخش رایگان

100% تا $20K + بازگشت روزانه