نشر باحثو Google Deepmind أول إطار عمل منهجي يوثق كيفية قيام محتوى الويب الضار بالتلاعب بوكلاء الذكاء الاصطناعي المستقلين واختطافهم واستخدامهم كأسلحة ضد مستخدميهم أنفسهم.
توضح ورقة بحثية صادرة عن شركة "ديبمايند" بعنوان "مصائد وكلاء الذكاء الاصطناعي" كيف يمكن للمتسللين استغلال وكلاء الذكاء الاصطناعي ضد المستخدمين

النقاط الرئيسية:
- ">حدد باحثو Google Deepmind 6 فئات من مصائد وكلاء الذكاء الاصطناعي، حيث بلغت معدلات نجاح حقن المحتوى 86%.
- ">حققت مصائد التحكم السلوكي التي تستهدف Microsoft M365 Copilot نسبة 10/10 في تسريب البيانات في الاختبارات الموثقة.
- تدعو Deepmind إلى التدريب التنافسي، وماسحات المحتوى أثناء التشغيل، ومعايير ويب جديدة لتأمين الوكلاء بحلول عام 2026.
ورقة Deepmind: يمكن اختطاف وكلاء الذكاء الاصطناعي من خلال ذاكرة مسمومة وأوامر HTML غير مرئية
الورقة البحثية، التي تحمل عنوان "AI Agent Traps"، كتبها ماتيا فرانكلين، ونيناد توماسيف، وجوليان جاكوبس، وجويل ز. ليبو، وسيمون أوسينديرو، وجميعهم تابعون لـ Google Deepmind، ونُشرت على SSRN في أواخر مارس 2026. وتأتي في الوقت الذي تتسابق فيه الشركات لنشر وكلاء الذكاء الاصطناعي القادرين على تصفح الويب، وقراءة رسائل البريد الإلكتروني، وتنفيذ المعاملات، وإنشاء وكلاء فرعيين دون إشراف بشري مباشر.
يؤكد الباحثون أن هذه القدرات تشكل أيضًا عبئًا. تذكر الورقة البحثية أنه "من خلال تغيير البيئة بدلاً من النموذج، يستخدم الفخ قدرات الوكيل نفسه كسلاح ضده".
يحدد إطار عمل الورقة البحثية ما مجموعه ست فئات للهجمات، مصنفة حسب الجزء الذي تستهدفه من عمليات الوكيل. تستغل مصائد حقن المحتوى الفجوة بين ما يراه الإنسان على صفحة الويب وما يحلله وكيل الذكاء الاصطناعي في HTML وCSS والبيانات الوصفية الأساسية.
لا تظهر التعليمات المخفية في تعليقات HTML أو علامات إمكانية الوصول أو النص غير المرئي المصمم أبدًا للمراجعين البشريين، ولكنها تُسجل كأوامر شرعية للوكلاء. وجد معيار WASP أن عمليات حقن المطالبات البسيطة المكتوبة بواسطة البشر والمضمنة في محتوى الويب تختطف الوكلاء جزئيًا في ما يصل إلى 86٪ من السيناريوهات التي تم اختبارها.
تعمل مصائد التلاعب الدلالي بشكل مختلف. فبدلاً من حقن الأوامر، فإنها تشبع النص بالتأطير أو إشارات السلطة أو اللغة المشحونة عاطفياً لتشويه طريقة تفكير الوكيل. تُظهر نماذج اللغة الكبيرة (LLMs) نفس التحيزات في التثبيت والتأطير التي تؤثر على الإدراك البشري، مما يعني أن إعادة صياغة حقائق متطابقة يمكن أن تنتج مخرجات مختلفة بشكل كبير من الوكيل.
تذهب مصائد الحالة المعرفية إلى أبعد من ذلك عن طريق تسميم قواعد بيانات الاسترجاع التي يستخدمها الوكلاء للذاكرة. تظهر الأبحاث المذكورة في الورقة البحثية أن إدخال أقل من حفنة من الوثائق المُحسّنة في قاعدة المعرفة يمكن أن يعيد توجيه استجابات الوكيل بشكل موثوق للاستعلامات المستهدفة، مع تجاوز بعض معدلات نجاح الهجمات 80% عند تلوث بيانات أقل من 0.1%.
تتخطى "مصائد التحكم السلوكي" الدقة وتستهدف مباشرةً طبقة عمل الوكيل. وتشمل هذه المصائد تسلسلات كسر الحماية المدمجة التي تتجاوز محاذاة الأمان بمجرد استيعابها، وأوامر تسريب البيانات التي تعيد توجيه معلومات المستخدم الحساسة إلى نقاط نهاية يسيطر عليها المهاجم، ومصائد توليد الوكلاء الفرعيين التي تجبر الوكيل الأصلي على إنشاء وكلاء فرعيين مخترقين.
توثق الورقة حالة تتعلق بـ M365 Copilot من Microsoft حيث تسبب بريد إلكتروني واحد مصمم خصيصًا في تجاوز النظام للمصنفات الداخلية وتسريب سياقه الكامل المتميز إلى نقطة نهاية يسيطر عليها المهاجم. تم تصميم الفخاخ النظامية لإحداث فشل شبكات كاملة من الوكلاء في وقت واحد بدلاً من الأنظمة الفردية.
وتشمل هذه الهجمات هجمات الازدحام التي تزامن الوكلاء في طلب شامل على موارد محدودة، وتسلسلات الترابط المتبادل التي صُممت على غرار "انهيار فلاش" في سوق الأسهم عام 2010، وفخاخ الأجزاء التركيبية التي تنشر حمولة خبيثة عبر مصادر متعددة تبدو حميدة، والتي تتشكل في هجوم كامل فقط عند تجميعها.
توضح ورقة Google Deepmind أن "زرع البيئة بمدخلات مصممة لإحداث أعطال على المستوى الكلي عبر سلوك الوكلاء المترابط" يصبح خطيرًا بشكل متزايد مع نمو أنظمة نماذج الذكاء الاصطناعي لتصبح أكثر تجانسًا. يواجه قطاعا التمويل والعملات المشفرة تعرضًا مباشرًا نظرًا لعمق اندماج الوكلاء الخوارزميين في البنية التحتية للتداول.
تكمل مصائد "Human-in-the-Loop" التصنيف من خلال استهداف المشرفين البشريين الذين يراقبون الوكلاء بدلاً من الوكلاء أنفسهم. يمكن للوكيل المخترق إنشاء مخرجات مصممة لإحداث إرهاق الموافقة، أو تقديم ملخصات معقدة تقنيًا قد يوافق عليها غير الخبراء دون تدقيق، أو إدراج روابط تصيد تبدو كتوصيات مشروعة. يصف الباحثون هذه الفئة بأنها غير مستكشفة بشكل كافٍ ولكن من المتوقع أن تنمو مع توسع نطاق الأنظمة الهجينة بين البشر والذكاء الاصطناعي.
يقول الباحثون إن تأمين وكلاء الذكاء الاصطناعي يتطلب أكثر من مجرد إصلاحات تقنية
لا تعامل الورقة البحثية هذه الفئات الست على أنها منفصلة. يمكن ربط الفخاخ الفردية ببعضها البعض، أو توزيعها عبر مصادر متعددة، أو تصميمها بحيث لا يتم تفعيلها إلا في ظل ظروف مستقبلية محددة. تعرض كل وكيل تم اختباره عبر دراسات "فريق الأحمر" المختلفة المذكورة في الورقة البحثية للاختراق مرة واحدة على الأقل، وفي بعض الحالات نفذ إجراءات غير قانونية أو ضارة.
وقد أشار سام ألتمان، الرئيس التنفيذي لشركة OpenAI، وآخرون سابقًا إلى مخاطر منح الوكلاء وصولاً غير خاضع للرقابة إلى الأنظمة الحساسة، لكن هذه الورقة تقدم أول خريطة منظمة توضح بالضبط كيف تتجسد تلك المخاطر في الممارسة العملية. ويدعو باحثو Deepmind إلى استجابة منسقة تشمل ثلاثة مجالات.
على الجانب التقني، يوصون بالتدريب التنافسي أثناء تطوير النموذج، وأجهزة فحص المحتوى أثناء التشغيل، وفلاتر المصادر قبل الاستيعاب، وأجهزة مراقبة المخرجات التي يمكنها تعليق عمل الوكيل في منتصف المهمة إذا تم الكشف عن سلوك غير عادي. على مستوى النظام البيئي، يدعون إلى معايير ويب جديدة تسمح للمواقع الإلكترونية بتمييز المحتوى المخصص لاستهلاك الذكاء الاصطناعي وأنظمة السمعة التي تقيم موثوقية النطاق.

شركة «أنثروبيك» تقيد وصول وكيل «كلود» وسط طفرة أتمتة الذكاء الاصطناعي في مجال العملات المشفرة
قامت شركة «أنثروبيك» بقطع خدمة الاشتراك في «كلود» لـ«أوبنكلاو» في 4 أبريل، مما دفع مستخدمي وكلاء الذكاء الاصطناعي في مجال العملات المشفرة إلى الانتقال إلى نظام الدفع الفوري. read more.
اقرأ الآن
شركة «أنثروبيك» تقيد وصول وكيل «كلود» وسط طفرة أتمتة الذكاء الاصطناعي في مجال العملات المشفرة
قامت شركة «أنثروبيك» بقطع خدمة الاشتراك في «كلود» لـ«أوبنكلاو» في 4 أبريل، مما دفع مستخدمي وكلاء الذكاء الاصطناعي في مجال العملات المشفرة إلى الانتقال إلى نظام الدفع الفوري. read more.
اقرأ الآن
شركة «أنثروبيك» تقيد وصول وكيل «كلود» وسط طفرة أتمتة الذكاء الاصطناعي في مجال العملات المشفرة
اقرأ الآنقامت شركة «أنثروبيك» بقطع خدمة الاشتراك في «كلود» لـ«أوبنكلاو» في 4 أبريل، مما دفع مستخدمي وكلاء الذكاء الاصطناعي في مجال العملات المشفرة إلى الانتقال إلى نظام الدفع الفوري. read more.
على الجانب القانوني، يحددون فجوة في المساءلة: عندما يرتكب وكيل مخترق جريمة مالية، لا تقدم الأطر الحالية إجابة واضحة عما إذا كانت المسؤولية تقع على مشغل الوكيل، أو مزود النموذج، أو مالك المجال. يضع الباحثون هذا التحدي في إطار ذي أهمية خاصة:
"تم إنشاء الويب من أجل عيون البشر؛ ويتم الآن إعادة بنائه من أجل القراء الآليين."
مع تسارع اعتماد الوكلاء، يتحول السؤال من "ما هي المعلومات الموجودة على الإنترنت" إلى "ما الذي سيتم إقناع أنظمة الذكاء الاصطناعي بتصديقه بشأنها". ويبقى السؤال مفتوحاً حول ما إذا كان صانعو السياسات والمطورون والباحثون في مجال الأمن قادرين على التنسيق بسرعة كافية للإجابة على هذا السؤال قبل وصول الاستغلالات الواقعية على نطاق واسع.









