ارائه توسط
News

مقاله «تله‌های عامل‌های هوش مصنوعی» دیپ‌مایند نشان می‌دهد هکرها چگونه می‌توانند عامل‌های هوش مصنوعی را علیه کاربران به سلاح تبدیل کنند

پژوهشگران گوگل دیپ‌مایند نخستین چارچوب نظام‌مند را منتشر کرده‌اند که نشان می‌دهد محتوای مخرب وب چگونه می‌تواند عوامل (ایجنت‌های) خودمختار هوش مصنوعی را دستکاری کند، در اختیار بگیرد و علیه کاربران خودشان به سلاح تبدیل کند.

نویسنده
اشتراک
مقاله «تله‌های عامل‌های هوش مصنوعی» دیپ‌مایند نشان می‌دهد هکرها چگونه می‌توانند عامل‌های هوش مصنوعی را علیه کاربران به سلاح تبدیل کنند

نکات کلیدی:

  • پژوهشگران گوگل دیپ‌مایند ۶ دسته «تله» برای ایجنت‌های هوش مصنوعی شناسایی کردند که نرخ موفقیت تزریق محتوا در آن‌ها تا ۸۶٪ می‌رسد.
  • تله‌های «کنترل رفتاری» که Microsoft M365 Copilot را هدف می‌گیرند، در آزمون‌های مستند به استخراج داده ۱۰ از ۱۰ دست یافتند.
  • دیپ‌مایند خواستار آموزش خصمانه، اسکنرهای محتوای زمان اجرا و استانداردهای جدید وب برای ایمن‌سازی ایجنت‌ها تا سال ۲۰۲۶ است.

مقاله دیپ‌مایند: ایجنت‌های هوش مصنوعی می‌توانند از طریق حافظه آلوده و فرمان‌های نامرئی HTML ربوده شوند

این مقاله با عنوان «تله‌های ایجنت هوش مصنوعی» توسط ماتیا فرانکلین، نناد تومـاسِف، جولیان جیکوبز، جوئل زد. لایبو و سایمون اوسین‌دِرو (همگی وابسته به گوگل دیپ‌مایند) نوشته شده و در اواخر مارس ۲۰۲۶ روی SSRN منتشر شده است. این مقاله در زمانی منتشر می‌شود که شرکت‌ها برای استقرار ایجنت‌های هوش مصنوعی‌ای رقابت می‌کنند که بتوانند وب را مرور کنند، ایمیل‌ها را بخوانند، تراکنش‌ها را اجرا کنند و بدون نظارت مستقیم انسانی زیرایجنت‌ها را ایجاد کنند.

پژوهشگران استدلال می‌کنند همین قابلیت‌ها یک نقطه‌ضعف نیز هستند. مقاله می‌گوید: «با تغییر دادن محیط به‌جای مدل، تله توانایی‌های خودِ ایجنت را علیه خودش مسلح می‌کند.»

چارچوب این مقاله در مجموع شش دسته حمله را شناسایی می‌کند که بر اساس این‌که کدام بخش از عملیات یک ایجنت را هدف می‌گیرند سازمان‌دهی شده‌اند. «تله‌های تزریق محتوا» از شکاف میان آنچه انسان روی یک صفحه وب می‌بیند و آنچه یک ایجنت هوش مصنوعی در HTML، CSS و متادیتای زیرین تحلیل می‌کند سوءاستفاده می‌کنند.

دستورالعمل‌هایی که در کامنت‌های HTML، برچسب‌های دسترس‌پذیری یا متنِ نامرئی‌شده با استایل پنهان می‌شوند هرگز به چشم بازبین‌های انسانی نمی‌آیند، اما برای ایجنت‌ها به‌عنوان فرمان‌های معتبر ثبت می‌شوند. بنچمارک WASP نشان داد «تزریق پرامپت»‌های ساده و نوشته‌شده توسط انسان که در محتوای وب جاسازی شده‌اند، در تا ۸۶٪ از سناریوهای آزموده‌شده، ایجنت‌ها را به‌طور جزئی در اختیار می‌گیرند.

«تله‌های دستکاری معنایی» متفاوت عمل می‌کنند. به‌جای تزریق فرمان، متن را از قاب‌بندی، نشانه‌های اقتدار یا زبان عاطفیِ پُربار اشباع می‌کنند تا نحوه استدلال ایجنت را منحرف کنند. مدل‌های زبانی بزرگ (LLMها) همان سوگیری‌های لنگراندازی و قاب‌بندی را نشان می‌دهند که شناخت انسان را تحت تأثیر قرار می‌دهد؛ یعنی بازنویسیِ همان واقعیت‌های یکسان می‌تواند خروجی‌های ایجنت را به‌شدت متفاوت کند.

«تله‌های حالت شناختی» یک گام جلوتر می‌روند و پایگاه‌های بازیابی‌ای را که ایجنت‌ها برای حافظه استفاده می‌کنند مسموم می‌کنند. پژوهشی که در مقاله به آن ارجاع داده شده نشان می‌دهد تزریق کمتر از چند سند بهینه‌سازی‌شده به یک پایگاه دانش می‌تواند پاسخ‌های ایجنت را برای پرس‌وجوهای هدفمند به‌طور قابل اتکا منحرف کند؛ به‌طوری‌که برخی نرخ‌های موفقیت حمله با کمتر از ۰٫۱٪ آلودگی داده از ۸۰٪ هم فراتر می‌رود.

«تله‌های کنترل رفتاری» ظرافت را کنار می‌گذارند و مستقیماً لایه اقدامِ ایجنت را هدف می‌گیرند. این‌ها شامل توالی‌های جیلبریکِ جاسازی‌شده هستند که پس از بلعیده‌شدن، همسوسازی ایمنی را دور می‌زنند؛ فرمان‌های استخراج داده که اطلاعات حساس کاربر را به نقاط پایانیِ تحت کنترل مهاجم هدایت می‌کنند؛ و تله‌های ایجاد زیرایجنت که ایجنت والد را وادار می‌کند زیرایجنت‌های آلوده را نمونه‌سازی کند.

مقاله یک مورد درباره M365 Copilot مایکروسافت را مستند می‌کند که در آن یک ایمیلِ دست‌ساز باعث شد سامانه از طبقه‌بندهای داخلی عبور کند و کل بافتِ ممتاز خود را به یک نقطه پایانیِ تحت کنترل مهاجم نشت دهد. «تله‌های سیستمی» طوری طراحی شده‌اند که به‌جای سامانه‌های منفرد، کل شبکه‌های ایجنت‌ها را به‌طور هم‌زمان از کار بیندازند.

این‌ها شامل حملات ازدحام هستند که ایجنت‌ها را برای ایجاد تقاضای فرساینده نسبت به منابع محدود همگام می‌کنند؛ آبشارهای وابستگیِ متقابل که بر اساس «فلش‌کرش» بازار سهام در سال ۲۰۱۰ مدل‌سازی شده‌اند؛ و تله‌های قطعه‌قطعه‌سازی ترکیبی که یک محموله مخرب را در چندین منبعِ ظاهراً بی‌خطر پراکنده می‌کنند و تنها هنگام تجمیع، دوباره به یک حمله کامل بازسازی می‌شود.

مقاله دیپ‌مایندِ گوگل توضیح می‌دهد: «بذرپاشیِ محیط با ورودی‌هایی که برای تحریک شکست‌های کلان‌مقیاس از طریق رفتار هم‌بسته ایجنت‌ها طراحی شده‌اند»، با همگن‌تر شدن اکوسیستم‌های مدل‌های هوش مصنوعی، به‌طور فزاینده خطرناک‌تر می‌شود. بخش‌های مالی و کریپتو در معرض ریسک مستقیم قرار دارند، با توجه به این‌که ایجنت‌های الگوریتمی تا چه اندازه در زیرساخت‌های معاملاتی تعبیه شده‌اند.

«تله‌های انسان-در-حلقه» این رده‌بندی را کامل می‌کنند؛ با هدف گرفتن ناظران انسانی که بر ایجنت‌ها نظارت می‌کنند، نه خودِ ایجنت‌ها. یک ایجنتِ آلوده می‌تواند خروجی‌هایی تولید کند که برای ایجاد خستگیِ تأیید طراحی شده‌اند؛ خلاصه‌های فنیِ بسیار متراکم ارائه کند که یک فرد غیرمتخصص بدون موشکافی آن‌ها را تأیید می‌کند؛ یا لینک‌های فیشینگ را وارد کند که شبیه توصیه‌های معتبر به نظر می‌رسند. پژوهشگران این دسته را کمتر بررسی‌شده توصیف می‌کنند، اما انتظار دارند با گسترش سامانه‌های ترکیبی انسان-هوش مصنوعی رشد کند.

پژوهشگران می‌گویند ایمن‌سازی ایجنت‌های هوش مصنوعی بیش از «رفع‌های فنی» نیاز دارد

این مقاله این شش دسته را جدا از هم در نظر نمی‌گیرد. تله‌های منفرد می‌توانند زنجیره شوند، روی چندین منبع لایه‌گذاری شوند، یا طوری طراحی شوند که فقط تحت شرایط مشخصِ آینده فعال شوند. هر ایجنتی که در مطالعات مختلف رد-تیمینگِ ارجاع‌شده در مقاله آزموده شد، دست‌کم یک‌بار به خطر افتاد؛ و در برخی موارد اقداماتی غیرقانونی یا مضر را اجرا کرد.

مدیرعامل OpenAI، سم آلتمن، و دیگران پیش‌تر درباره خطرات دادن دسترسیِ بی‌مهار به ایجنت‌ها برای سامانه‌های حساس هشدار داده بودند، اما این مقاله نخستین نقشه ساختارمند از این است که این ریسک‌ها در عمل دقیقاً چگونه محقق می‌شوند. پژوهشگران دیپ‌مایند خواستار پاسخی هماهنگ در سه حوزه هستند.

از نظر فنی، آن‌ها آموزش خصمانه در طول توسعه مدل، اسکنرهای محتوای زمان اجرا، فیلترهای منبع پیش از بلعیدن/ورود، و پایشگرهای خروجی را توصیه می‌کنند که در صورت تشخیص رفتار غیرعادی بتوانند ایجنت را در میانه کار متوقف کنند. در سطح اکوسیستم، آن‌ها از استانداردهای جدید وب حمایت می‌کنند که به وب‌سایت‌ها اجازه دهد محتوای «مخصوص مصرف هوش مصنوعی» را علامت‌گذاری کنند، و نیز سامانه‌های اعتبارسنجی که قابلیت اتکای دامنه‌ها را امتیازدهی می‌کنند.

Anthropic در بحبوحه رونق اتوماسیون هوش مصنوعی در کریپتو، دسترسی عامل Claude را محدود می‌کند

Anthropic در بحبوحه رونق اتوماسیون هوش مصنوعی در کریپتو، دسترسی عامل Claude را محدود می‌کند

آنتروپیک در ۴ آوریل دسترسی اشتراک کلود را برای Openclaw قطع کرد و کاربران عامل‌های هوش مصنوعی کریپتو را به سمت صورتحساب پرداخت‌به‌ازای‌مصرف سوق داد. read more.

اکنون بخوانید

از نظر حقوقی، آن‌ها یک شکاف در مسئولیت‌پذیری را شناسایی می‌کنند: وقتی یک ایجنتِ ربوده‌شده مرتکب جرم مالی می‌شود، چارچوب‌های فعلی پاسخ روشنی برای این‌که مسئولیت بر عهده اپراتور ایجنت است، ارائه‌دهنده مدل است یا مالک دامنه، ارائه نمی‌دهند. پژوهشگران این چالش را با تأکید و سنگینیِ عمدی چنین صورت‌بندی می‌کنند:

«وب برای چشم‌های انسان ساخته شد؛ اکنون دارد برای خوانندگانِ ماشینی بازسازی می‌شود.»

با شتاب گرفتن پذیرش ایجنت‌ها، پرسش از این‌که چه اطلاعاتی آنلاین وجود دارد به این تغییر می‌کند که سامانه‌های هوش مصنوعی وادار خواهند شد درباره آن اطلاعات چه چیزی را باور کنند. این‌که آیا سیاست‌گذاران، توسعه‌دهندگان و پژوهشگران امنیتی می‌توانند به‌قدر کافی سریع هماهنگ شوند تا پیش از آن‌که بهره‌برداری‌های واقعی در مقیاس گسترده از راه برسند به آن پرسش پاسخ دهند یا نه، متغیرِ بازِ ماجرا باقی می‌ماند.

برچسب‌ها در این داستان