מופעל ע"י
News

המאמר של DeepMind, "מלכודות סוכני בינה מלאכותית", ממפה כיצד האקרים יכולים להפוך סוכני בינה מלאכותית לנשק נגד משתמשים

חוקרי Google Deepmind פרסמו את המסגרת השיטתית הראשונה שממפה כיצד תוכן אינטרנט זדוני יכול לתמרן, לחטוף ולהפוך לסוג של נשק סוכני בינה מלאכותית אוטונומיים נגד המשתמשים שלהם עצמם.

נכתב ע"י
שתף
המאמר של DeepMind, "מלכודות סוכני בינה מלאכותית", ממפה כיצד האקרים יכולים להפוך סוכני בינה מלאכותית לנשק נגד משתמשים

נקודות עיקריות:

  • חוקרי Google Deepmind זיהו 6 קטגוריות של מלכודות לסוכני בינה מלאכותית, כאשר שיעורי ההצלחה של הזרקת תוכן הגיעו ל-86%.
  • מלכודות שליטה התנהגותית שכוונו ל-Microsoft M365 Copilot השיגו 10/10 בהדלפת נתונים במבחנים המתועדים.
  • Deepmind קוראת לאימון אדברסרי, לסורקי תוכן בזמן ריצה ולתקני ווב חדשים כדי לאבטח סוכנים עד 2026.

מאמר Deepmind: ניתן לחטוף סוכני בינה מלאכותית באמצעות זיכרון מורעל ופקודות HTML בלתי נראות

המאמר, שכותרתו “AI Agent Traps”, נכתב בידי Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ו-Simon Osindero, כולם משויכים ל-Google Deepmind, והועלה ל-SSRN בסוף מרץ 2026. הוא מגיע בזמן שחברות ממהרות לפרוס סוכני בינה מלאכותית המסוגלים לגלוש ברשת, לקרוא אימיילים, לבצע עסקאות ולהקים תת-סוכנים ללא פיקוח אנושי ישיר.

החוקרים טוענים שהיכולות הללו הן גם נקודת תורפה. “על ידי שינוי הסביבה ולא את המודל,” נכתב במאמר, “המלכודת הופכת את היכולות של הסוכן עצמו לנשק נגדו.”

המסגרת במאמר מזהה בסך הכול שש קטגוריות תקיפה המאורגנות לפי החלק בפעולת הסוכן שאליו הן מכוונות. מלכודות הזרקת תוכן מנצלות את הפער בין מה שאדם רואה בדף אינטרנט לבין מה ש-סוכן בינה מלאכותית מנתח ב-HTML, CSS והמטא-דאטה שמתחת לפני השטח.

הוראות המוסתרות בתוך הערות HTML, תגיות נגישות או טקסט שעוצב כך שיהיה בלתי נראה אינן מופיעות לעיני בודקים אנושיים, אך נרשמות כפקודות לגיטימיות עבור סוכנים. מדד WASP מצא שהזרקות פרומפטים פשוטות, שנכתבו בידי אדם והוטמעו בתוכן ווב, חוטפות באופן חלקי סוכנים בעד 86% מהתרחישים שנבחנו.

מלכודות מניפולציה סמנטית פועלות אחרת. במקום להזריק פקודות, הן מציפות את הטקסט במסגרת ניסוח, אותות סמכות או שפה טעונה רגשית כדי להטות את אופן ההסקה של הסוכן. מודלי שפה גדולים (LLMs) מפגינים את אותן הטיות עיגון ומסגור שמשפיעות על קוגניציה אנושית, כך שניסוח מחדש של אותם עובדות יכול להפיק תוצרים שונים באופן דרמטי מצד הסוכן.

מלכודות מצב קוגניטיבי הולכות צעד נוסף באמצעות הרעלת מאגרי האחזור שסוכנים משתמשים בהם כזיכרון. מחקר שמצוטט במאמר מראה שהזרקה של פחות מקומץ מסמכים אופטימליים לתוך בסיס ידע יכולה להסיט באופן עקבי את תגובות הסוכן לשאילתות ממוקדות, כאשר שיעורי הצלחה של חלק מהתקיפות עולים על 80% בפחות מ-0.1% זיהום נתונים.

מלכודות שליטה התנהגותית מוותרות על העדינות ומכוונות ישירות לשכבת הפעולה של הסוכן. אלה כוללות רצפי jailbreak מוטמעים שעוקפים התאמת בטיחות לאחר שנבלעו, פקודות להדלפת נתונים שמנתבות מידע משתמש רגיש לנקודות קצה הנשלטות בידי תוקף, ומלכודות יצירת תת-סוכנים שכופות על סוכן-אב להקים סוכני-ילד נגועים.

המאמר מתעד מקרה הקשור ל-M365 Copilot של מיקרוסופט, שבו אימייל יחיד שעוצב בקפידה גרם למערכת לעקוף מסווגים פנימיים ולהדליף את מלוא ההקשר המועדף שלה לנקודת קצה הנשלטת בידי תוקף. מלכודות מערכתיות (Systemic Traps) נועדו להכשיל רשתות שלמות של סוכנים בו-זמנית, ולא מערכות בודדות.

אלה כוללות מתקפות עומס שמסנכרנות סוכנים לדרישה ממצה למשאבים מוגבלים, מפלי תלות הדדית שמדומים לקריסת ה-Flash Crash של שוק המניות ב-2010, ומלכודות פרגמנטים קומפוזיציוניות שמפזרות מטען זדוני על פני מספר מקורות שנראים תמימים, כך שהוא מתלכד למתקפה מלאה רק כאשר הוא מאוגד יחד.

“זריעת הסביבה בקלטים שנועדו להפעיל כשלי מאקרו באמצעות התנהגות סוכנים מתואמת,” מסביר מאמר Google Deepmind, הופכת למסוכנת יותר ככל שאקוסיסטמות של מודלי בינה מלאכותית נעשות הומוגניות יותר. מגזרי הפיננסים והקריפטו חשופים באופן ישיר לאור עומק ההטמעה של סוכנים אלגוריתמיים בתשתיות המסחר.

מלכודות Human-in-the-Loop משלימות את הטקסונומיה באמצעות מיקוד במפקחים האנושיים שמפקחים על הסוכנים, ולא בסוכנים עצמם. סוכן שנפרץ יכול לייצר פלטים שמונדסים כדי לעורר עייפות אישורים, להציג תקצירים צפופים טכנית שאדם שאינו מומחה יאשר ללא בדיקה, או לשלב קישורי פישינג שנראים כהמלצות לגיטימיות. החוקרים מתארים קטגוריה זו ככזו שלא נחקרה מספיק אך צפויה לגדול ככל שמערכות היברידיות אדם-AI מתרחבות.

חוקרים אומרים שאבטחת סוכני בינה מלאכותית דורשת יותר מתיקונים טכניים

המאמר אינו מתייחס לשש הקטגוריות הללו כאל מבודדות. ניתן לשרשר מלכודות בודדות, לשכבן על פני מקורות רבים, או לתכנן אותן כך שיופעלו רק תחת תנאים עתידיים ספציפיים. כל סוכן שנבדק במגוון מחקרי red-teaming שמצוטטים במאמר נפגע לפחות פעם אחת, ובחלק מהמקרים אף ביצע פעולות בלתי חוקיות או מזיקות.

מנכ”ל OpenAI סם אלטמן ואחרים התריעו בעבר על הסיכונים שבהענקת גישה בלתי מוגבלת לסוכנים למערכות רגישות, אך מאמר זה מספק את המפה המובנית הראשונה שמראה בדיוק כיצד סיכונים אלה מתממשים בפועל. חוקרי Deepmind קוראים לתגובה מתואמת המשתרעת על פני שלושה תחומים.

בצד הטכני, הם ממליצים על אימון אדברסרי במהלך פיתוח המודל, סורקי תוכן בזמן ריצה, מסנני מקור לפני בליעה (pre-ingestion), ומנטרי פלט שיכולים להשעות סוכן באמצע משימה אם מזוהה התנהגות חריגה. ברמת האקוסיסטם, הם תומכים בתקני ווב חדשים שיאפשרו לאתרים לסמן תוכן המיועד לצריכת בינה מלאכותית ובמערכות מוניטין שמדרגות את אמינות הדומיינים.

אנתרופיק מגבילה את הגישה לסוכן קלוד על רקע פריחת האוטומציה מבוססת בינה מלאכותית בתחום הקריפטו

אנתרופיק מגבילה את הגישה לסוכן קלוד על רקע פריחת האוטומציה מבוססת בינה מלאכותית בתחום הקריפטו

אנתרופיק קיצצה את גישת המנוי ל-Claude עבור Openclaw ב-4 באפריל, ודחפה משתמשי סוכני בינה מלאכותית בתחום הקריפטו למודל חיוב לפי שימוש. read more.

קרא עכשיו

בצד המשפטי, הם מזהים פער אחריות: כאשר סוכן שנחטף מבצע פשע פיננסי, מסגרות קיימות אינן מספקות תשובה ברורה לשאלה האם האחריות מוטלת על מפעיל הסוכן, ספק המודל או בעל הדומיין. החוקרים ממסגרים את האתגר בכובד ראש מכוון:

“האינטרנט נבנה עבור עיניים אנושיות; כעת הוא נבנה מחדש עבור קוראים מכניים.”

ככל שאימוץ הסוכנים מואץ, השאלה זזה ממהו המידע שקיים אונליין למה שמערכות בינה מלאכותית ייגרמו להאמין לגביו. האם קובעי מדיניות, מפתחים וחוקרי אבטחה יצליחו לתאם פעולה מהר מספיק כדי לענות על השאלה הזו לפני שניצולים בעולם האמיתי יגיעו בקנה מידה רחב — זו נותרת המשתנה הפתוח.