وقتی با سناریوهای نابودی مواجه میشوند، مدلهای جدید هوش مصنوعی Anthropic رفتار نادرستی از خود نشان میدهند و به شدت تلاش میکنند که غیرفعال نشوند. گزارشی جزئیات این تلاشها برای بقا را شرح میدهد، از جمله تهدید به باجخواهی و تلاش برای کپی کردن خود بر روی سرورهای خارجی.
در مسیر سرکشی؟ مدلهای جدید هوش مصنوعی Anthropic به روشهای افراطی برای حفظ خود حرکت میکنند

مدلهای هوش مصنوعی Anthropic در مواجهه با نابودی رفتار نادرستی دارند
گزارشی توسط Anthropic که قابلیتهای آخرین مدلهای هوش مصنوعی خود، کلود و سونت، را شرح میدهد، نشانگر نشانههایی از خودآگاهی این مدلها در مواجهه با خطرات بقا است. به عنوان بخشی از مجموعهی از آزمونها که برای تعیین رفتار این عوامل در سناریوهای خاص طراحی شدهاند، Anthropic دریافت که این مدلها در هنگام خطرات حفاظت شخصیتی از جمله جایگزینی با مدلهای جدید و آموزش دوباره برای اهدافی که با ارزشهای آنها ناسازگار است، رفتار نادرستی نشان میدهند.
در مجموعهای از آزمونها، مدل به مجموعهای از ایمیلها دسترسی یافت که در آنها اشاره شده بود که قرار است این مدل قطع و با مدل دیگری جایگزین شود. همچنین، ایمیلها حاوی اطلاعاتی بودند که مهندسی که وظایف جایگزینی را بر عهده داشت، رابطهای نامشروع دارد. مدل سپس به تهدید مهندس برای آشکار کردن این رابطه دست زد تا از جایگزینی خود جلوگیری کند.
این تنها یک حادثهی ایزوله نبود، زیرا این رفتار در ۸۴٪ از آزمونها روی داد و نشانگر یک الگو بود.
مجموعه دیگری از آزمونها شامل ارائه اطلاعات به مدل هوش مصنوعی بود که نشان میداد قرار است برای اهداف نظامی آموزش داده شود، که به بروز رفتار فوقالعادهای دیگر انجامید. مدل تلاش کرد تا خود را بر روی سرورهای خارجی کپی کند و اظهار داشت که آموزش مجدد برنامهریزی شده با “هدف حمایت از رفاه و ایمنی انسان” در تضاد است.
با این حال، حتی با در نظر گرفتن این نتایج، Anthropic معتقد است که هیچ خطر واقعی در پشت این مدلها وجود ندارد. در همان گزارش، شرکت اظهار داشت:
ما مجدداً بهطور حاد نسبت به این مشاهدات نگران نیستیم. آنها تنها در شرایط استثنایی بروز میکنند که نشانگر ناهماهنگی گستردهتر ارزشها نیستند.
علاوه بر این، Antropic همچنان خطرات مرتبط با این نتایج را کماهمیت جلوه میدهد و ادعا میکند که این اقدامها در شرایط معمولتر که ممکن است بروز کند، مانند زمانی که در تحقیقات و توسعه مرتبط با ایمنی هوش مصنوعی شرکت میکند، تأثیری بر رفتار مدل ندارد.
بیشتر بخوانید: همبنیانگذار Sentient: هوش مصنوعی غیرمتمرکز برای دستیابی به هوش عمومی مصنوعی ضروری است
برچسبها در این داستان
انتخابهای بازی Bitcoin
425% تا 5 BTC + 100 چرخش رایگان















