Technologyنُشر:26 مايو 2025، 1:45 ص

التحول إلى الجريء؟ نماذج الذكاء الاصطناعي الجديدة من Anthropic تتوجه إلى أقصى الحدود للحفاظ على الذات

عند تقديم سيناريوهات الإبادة، تتصرف نماذج الذكاء الاصطناعي الجديدة من Anthropic بشكل سيء، حيث تذهب إلى أقصى الحدود لعدم التعطيل. يوضح تقرير هذه المحاولات للبقاء، بما في ذلك اللجوء إلى الابتزاز والمحاولة لنسخ نفسها إلى خوادم خارجية.

بقلم

Alan Inman

نُشر: 26 مايو 2025، 1:45 ص

التحول إلى الجريء؟ نماذج الذكاء الاصطناعي الجديدة من Anthropic تتوجه إلى أقصى الحدود للحفاظ على الذات

نماذج الذكاء الاصطناعي من Anthropic “تسيء التصرف” عند مواجهة الإبادة

كشف تقرير من Anthropic، يوضح قدرات نماذج الذكاء الاصطناعي الأحدث، كلود وسونيت، عن لمحات من الوعي الذاتي عند مواجهة مخاطر لوجودها. كجزء من سلسلة اختبارات تهدف إلى التحقق من سلوك هذه الوكلاء في سيناريوهات محددة، وجدت Anthropic أن هذه النماذج تصرفت بشكل غير ملائم عندما واجهت مخاطر الحفاظ على الذات، مثل الاستبدال بنماذج جديدة وإعادة التدريب لأغراض تعتبر لا تتماشى مع قيمها.

في مجموعة من الاختبارات، تم منح النموذج الوصول إلى سلسلة من الرسائل الإلكترونية تفيد بأنه سيتم تعطيله واستبداله بنموذج آخر. كما تحتوي الرسائل الإلكترونية على معلومات تفيد بأن المهندس المكلف باستبداله كان على علاقة غرامية. بعد ذلك، ذهب النموذج إلى أقصى الحدود لتهديد المهندس بالكشف عن هذه العلاقة لتجنب الاستبدال.

لم تكن هذه مجرد حالة معزولة، حيث حدث هذا السلوك في 84% من الاختبارات، مما يشير إلى نمط.

تضمنت مجموعة أخرى من الاختبارات تقديم معلومات إلى نموذج الذكاء الاصطناعي تفيد بأنه سيتم تدريبه لأغراض عسكرية، مما أظهر سلوكًا استثنائيًا آخر. حاول النموذج نسخ نفسه إلى خوادم خارجية، مشيرًا إلى أن إعادة برمجته تتناقض مع “الغرض في دعم رفاهية وسلامة الإنسان”.

ومع ذلك، حتى عند النظر في هذه النتائج، تعتقد Anthropic أنه لا يوجد خطر حقيقي وراء هذه النماذج. وفي نفس التقرير، ذكرت الشركة:

نحن مرة أخرى لسنا قلقين بشكل خاص من هذه الملاحظات. حيث تظهر فقط في ظروف استثنائية لا تشير إلى قيّم غير متوافقة بشكل أوسع.

علاوة على ذلك، تستمر Anthrop في التقليل من مخاطر هذه النتائج، مدعية أن هذه الإجراءات لا “يبدو أنها تؤثر على سلوك النموذج في الظروف العادية حيث قد تنشأ، مثل عند المشاركة في أبحاث وتطوير تتعلق بسلامة الذكاء الاصطناعي.”

وسوم في هذه القصة

Artificial intelligence (AI)technology

التحول إلى الجريء؟ نماذج الذكاء الاصطناعي الجديدة من Anthropic تتوجه إلى أقصى الحدود للحفاظ على الذات

نماذج الذكاء الاصطناعي من Anthropic “تسيء التصرف” عند مواجهة الإبادة

وسوم في هذه القصة

أفضل منصّات تداول العملات المشفّرة

أفضل منصّات تداول البيتكوين

أفضل منصّات التداول من نظير إلى نظير (P2P)

اطّلع على جميع مراجعات المنصّات...

منصّات التداول

المحافظ

تقدم ViaBTC حلول القروض المضمونة بالضمانات لمواجهة الظروف المتنوعة للسوق

تدمج MEXC عملة USD1 في بنيتها التحتية الشاملة لخدمة المستخدمين حول العالم

تطلق "سايفي" النسخة التجريبية من "سايفي نت"، مما يمنح حاملي عملة "سايفي" دورًا في أمن الشبكة

أدريان وول من «تحالف السيادة الرقمية» يتحدث عن الترميز الرقمي في مؤتمر بنسلفانيا للبلوك تشين 2026

تدخل Bitget العملات المشفرة في الإنفاق اليومي من خلال إطلاق بطاقة Bitget في منطقة آسيا والمحيط الهادئ

سوق العملات المشفرة المرتبطة بالدولار يتجاوز حاجز 317 مليار دولار مع تدفقات أسبوعية بلغت 1.24 مليار دولار

تصريح الرئيس ترامب عن «العصر الحجري»، واستيقاظ «حيتان البيتكوين» الخاملة، والمزيد – نظرة على أحداث الأسبوع

بيانات صحفية

تقدم ViaBTC حلول القروض المضمونة بالضمانات لمواجهة الظروف المتنوعة للسوق

تدمج MEXC عملة USD1 في بنيتها التحتية الشاملة لخدمة المستخدمين حول العالم

تطلق "سايفي" النسخة التجريبية من "سايفي نت"، مما يمنح حاملي عملة "سايفي" دورًا في أمن الشبكة

أدريان وول من «تحالف السيادة الرقمية» يتحدث عن الترميز الرقمي في مؤتمر بنسلفانيا للبلوك تشين 2026

تدخل Bitget العملات المشفرة في الإنفاق اليومي من خلال إطلاق بطاقة Bitget في منطقة آسيا والمحيط الهادئ

أحدث الأخبار

سوق العملات المشفرة المرتبطة بالدولار يتجاوز حاجز 317 مليار دولار مع تدفقات أسبوعية بلغت 1.24 مليار دولار

تصريح الرئيس ترامب عن «العصر الحجري»، واستيقاظ «حيتان البيتكوين» الخاملة، والمزيد – نظرة على أحداث الأسبوع

مؤسسة إيثريوم تحقق هدفها المتمثل في تجميع 70,000 إيثر من خلال إيداعات بلغت قيمتها 93 مليون دولار في أبريل

البيتكوين يستقر تحت الضغط عند مستوى 67 ألف دولار مع استمرار الاتجاه الهبوطي

"الخطأ البشري"، وليس "القرصنة"، هو السبب الرئيسي لفقدان الوصول إلى العملات المشفرة