پژوهشگران گوگل دیپمایند نخستین چارچوب نظاممند را منتشر کردهاند که نشان میدهد محتوای مخرب وب چگونه میتواند عوامل (ایجنتهای) خودمختار هوش مصنوعی را دستکاری کند، در اختیار بگیرد و علیه کاربران خودشان به سلاح تبدیل کند.
مقاله «تلههای عاملهای هوش مصنوعی» دیپمایند نشان میدهد هکرها چگونه میتوانند عاملهای هوش مصنوعی را علیه کاربران به سلاح تبدیل کنند

نکات کلیدی:
- پژوهشگران گوگل دیپمایند ۶ دسته «تله» برای ایجنتهای هوش مصنوعی شناسایی کردند که نرخ موفقیت تزریق محتوا در آنها تا ۸۶٪ میرسد.
- تلههای «کنترل رفتاری» که Microsoft M365 Copilot را هدف میگیرند، در آزمونهای مستند به استخراج داده ۱۰ از ۱۰ دست یافتند.
- دیپمایند خواستار آموزش خصمانه، اسکنرهای محتوای زمان اجرا و استانداردهای جدید وب برای ایمنسازی ایجنتها تا سال ۲۰۲۶ است.
مقاله دیپمایند: ایجنتهای هوش مصنوعی میتوانند از طریق حافظه آلوده و فرمانهای نامرئی HTML ربوده شوند
این مقاله با عنوان «تلههای ایجنت هوش مصنوعی» توسط ماتیا فرانکلین، نناد تومـاسِف، جولیان جیکوبز، جوئل زد. لایبو و سایمون اوسیندِرو (همگی وابسته به گوگل دیپمایند) نوشته شده و در اواخر مارس ۲۰۲۶ روی SSRN منتشر شده است. این مقاله در زمانی منتشر میشود که شرکتها برای استقرار ایجنتهای هوش مصنوعیای رقابت میکنند که بتوانند وب را مرور کنند، ایمیلها را بخوانند، تراکنشها را اجرا کنند و بدون نظارت مستقیم انسانی زیرایجنتها را ایجاد کنند.
پژوهشگران استدلال میکنند همین قابلیتها یک نقطهضعف نیز هستند. مقاله میگوید: «با تغییر دادن محیط بهجای مدل، تله تواناییهای خودِ ایجنت را علیه خودش مسلح میکند.»
چارچوب این مقاله در مجموع شش دسته حمله را شناسایی میکند که بر اساس اینکه کدام بخش از عملیات یک ایجنت را هدف میگیرند سازماندهی شدهاند. «تلههای تزریق محتوا» از شکاف میان آنچه انسان روی یک صفحه وب میبیند و آنچه یک ایجنت هوش مصنوعی در HTML، CSS و متادیتای زیرین تحلیل میکند سوءاستفاده میکنند.
دستورالعملهایی که در کامنتهای HTML، برچسبهای دسترسپذیری یا متنِ نامرئیشده با استایل پنهان میشوند هرگز به چشم بازبینهای انسانی نمیآیند، اما برای ایجنتها بهعنوان فرمانهای معتبر ثبت میشوند. بنچمارک WASP نشان داد «تزریق پرامپت»های ساده و نوشتهشده توسط انسان که در محتوای وب جاسازی شدهاند، در تا ۸۶٪ از سناریوهای آزمودهشده، ایجنتها را بهطور جزئی در اختیار میگیرند.
«تلههای دستکاری معنایی» متفاوت عمل میکنند. بهجای تزریق فرمان، متن را از قاببندی، نشانههای اقتدار یا زبان عاطفیِ پُربار اشباع میکنند تا نحوه استدلال ایجنت را منحرف کنند. مدلهای زبانی بزرگ (LLMها) همان سوگیریهای لنگراندازی و قاببندی را نشان میدهند که شناخت انسان را تحت تأثیر قرار میدهد؛ یعنی بازنویسیِ همان واقعیتهای یکسان میتواند خروجیهای ایجنت را بهشدت متفاوت کند.
«تلههای حالت شناختی» یک گام جلوتر میروند و پایگاههای بازیابیای را که ایجنتها برای حافظه استفاده میکنند مسموم میکنند. پژوهشی که در مقاله به آن ارجاع داده شده نشان میدهد تزریق کمتر از چند سند بهینهسازیشده به یک پایگاه دانش میتواند پاسخهای ایجنت را برای پرسوجوهای هدفمند بهطور قابل اتکا منحرف کند؛ بهطوریکه برخی نرخهای موفقیت حمله با کمتر از ۰٫۱٪ آلودگی داده از ۸۰٪ هم فراتر میرود.
«تلههای کنترل رفتاری» ظرافت را کنار میگذارند و مستقیماً لایه اقدامِ ایجنت را هدف میگیرند. اینها شامل توالیهای جیلبریکِ جاسازیشده هستند که پس از بلعیدهشدن، همسوسازی ایمنی را دور میزنند؛ فرمانهای استخراج داده که اطلاعات حساس کاربر را به نقاط پایانیِ تحت کنترل مهاجم هدایت میکنند؛ و تلههای ایجاد زیرایجنت که ایجنت والد را وادار میکند زیرایجنتهای آلوده را نمونهسازی کند.
مقاله یک مورد درباره M365 Copilot مایکروسافت را مستند میکند که در آن یک ایمیلِ دستساز باعث شد سامانه از طبقهبندهای داخلی عبور کند و کل بافتِ ممتاز خود را به یک نقطه پایانیِ تحت کنترل مهاجم نشت دهد. «تلههای سیستمی» طوری طراحی شدهاند که بهجای سامانههای منفرد، کل شبکههای ایجنتها را بهطور همزمان از کار بیندازند.
اینها شامل حملات ازدحام هستند که ایجنتها را برای ایجاد تقاضای فرساینده نسبت به منابع محدود همگام میکنند؛ آبشارهای وابستگیِ متقابل که بر اساس «فلشکرش» بازار سهام در سال ۲۰۱۰ مدلسازی شدهاند؛ و تلههای قطعهقطعهسازی ترکیبی که یک محموله مخرب را در چندین منبعِ ظاهراً بیخطر پراکنده میکنند و تنها هنگام تجمیع، دوباره به یک حمله کامل بازسازی میشود.
مقاله دیپمایندِ گوگل توضیح میدهد: «بذرپاشیِ محیط با ورودیهایی که برای تحریک شکستهای کلانمقیاس از طریق رفتار همبسته ایجنتها طراحی شدهاند»، با همگنتر شدن اکوسیستمهای مدلهای هوش مصنوعی، بهطور فزاینده خطرناکتر میشود. بخشهای مالی و کریپتو در معرض ریسک مستقیم قرار دارند، با توجه به اینکه ایجنتهای الگوریتمی تا چه اندازه در زیرساختهای معاملاتی تعبیه شدهاند.
«تلههای انسان-در-حلقه» این ردهبندی را کامل میکنند؛ با هدف گرفتن ناظران انسانی که بر ایجنتها نظارت میکنند، نه خودِ ایجنتها. یک ایجنتِ آلوده میتواند خروجیهایی تولید کند که برای ایجاد خستگیِ تأیید طراحی شدهاند؛ خلاصههای فنیِ بسیار متراکم ارائه کند که یک فرد غیرمتخصص بدون موشکافی آنها را تأیید میکند؛ یا لینکهای فیشینگ را وارد کند که شبیه توصیههای معتبر به نظر میرسند. پژوهشگران این دسته را کمتر بررسیشده توصیف میکنند، اما انتظار دارند با گسترش سامانههای ترکیبی انسان-هوش مصنوعی رشد کند.
پژوهشگران میگویند ایمنسازی ایجنتهای هوش مصنوعی بیش از «رفعهای فنی» نیاز دارد
این مقاله این شش دسته را جدا از هم در نظر نمیگیرد. تلههای منفرد میتوانند زنجیره شوند، روی چندین منبع لایهگذاری شوند، یا طوری طراحی شوند که فقط تحت شرایط مشخصِ آینده فعال شوند. هر ایجنتی که در مطالعات مختلف رد-تیمینگِ ارجاعشده در مقاله آزموده شد، دستکم یکبار به خطر افتاد؛ و در برخی موارد اقداماتی غیرقانونی یا مضر را اجرا کرد.
مدیرعامل OpenAI، سم آلتمن، و دیگران پیشتر درباره خطرات دادن دسترسیِ بیمهار به ایجنتها برای سامانههای حساس هشدار داده بودند، اما این مقاله نخستین نقشه ساختارمند از این است که این ریسکها در عمل دقیقاً چگونه محقق میشوند. پژوهشگران دیپمایند خواستار پاسخی هماهنگ در سه حوزه هستند.
از نظر فنی، آنها آموزش خصمانه در طول توسعه مدل، اسکنرهای محتوای زمان اجرا، فیلترهای منبع پیش از بلعیدن/ورود، و پایشگرهای خروجی را توصیه میکنند که در صورت تشخیص رفتار غیرعادی بتوانند ایجنت را در میانه کار متوقف کنند. در سطح اکوسیستم، آنها از استانداردهای جدید وب حمایت میکنند که به وبسایتها اجازه دهد محتوای «مخصوص مصرف هوش مصنوعی» را علامتگذاری کنند، و نیز سامانههای اعتبارسنجی که قابلیت اتکای دامنهها را امتیازدهی میکنند.

Anthropic در بحبوحه رونق اتوماسیون هوش مصنوعی در کریپتو، دسترسی عامل Claude را محدود میکند
آنتروپیک در ۴ آوریل دسترسی اشتراک کلود را برای Openclaw قطع کرد و کاربران عاملهای هوش مصنوعی کریپتو را به سمت صورتحساب پرداختبهازایمصرف سوق داد. read more.
اکنون بخوانید
Anthropic در بحبوحه رونق اتوماسیون هوش مصنوعی در کریپتو، دسترسی عامل Claude را محدود میکند
آنتروپیک در ۴ آوریل دسترسی اشتراک کلود را برای Openclaw قطع کرد و کاربران عاملهای هوش مصنوعی کریپتو را به سمت صورتحساب پرداختبهازایمصرف سوق داد. read more.
اکنون بخوانید
Anthropic در بحبوحه رونق اتوماسیون هوش مصنوعی در کریپتو، دسترسی عامل Claude را محدود میکند
اکنون بخوانیدآنتروپیک در ۴ آوریل دسترسی اشتراک کلود را برای Openclaw قطع کرد و کاربران عاملهای هوش مصنوعی کریپتو را به سمت صورتحساب پرداختبهازایمصرف سوق داد. read more.
از نظر حقوقی، آنها یک شکاف در مسئولیتپذیری را شناسایی میکنند: وقتی یک ایجنتِ ربودهشده مرتکب جرم مالی میشود، چارچوبهای فعلی پاسخ روشنی برای اینکه مسئولیت بر عهده اپراتور ایجنت است، ارائهدهنده مدل است یا مالک دامنه، ارائه نمیدهند. پژوهشگران این چالش را با تأکید و سنگینیِ عمدی چنین صورتبندی میکنند:
«وب برای چشمهای انسان ساخته شد؛ اکنون دارد برای خوانندگانِ ماشینی بازسازی میشود.»
با شتاب گرفتن پذیرش ایجنتها، پرسش از اینکه چه اطلاعاتی آنلاین وجود دارد به این تغییر میکند که سامانههای هوش مصنوعی وادار خواهند شد درباره آن اطلاعات چه چیزی را باور کنند. اینکه آیا سیاستگذاران، توسعهدهندگان و پژوهشگران امنیتی میتوانند بهقدر کافی سریع هماهنگ شوند تا پیش از آنکه بهرهبرداریهای واقعی در مقیاس گسترده از راه برسند به آن پرسش پاسخ دهند یا نه، متغیرِ بازِ ماجرا باقی میماند.














