द्वारा संचालित
News

डीपमाइंड का 'AI एजेंट ट्रैप्स' पेपर यह दर्शाता है कि हैकर्स कैसे AI एजेंट्स का उपयोग उपयोगकर्ताओं के खिलाफ हथियार के रूप में कर सकते हैं।

Google Deepmind के शोधकर्ताओं ने पहला व्यवस्थित ढांचा प्रकाशित किया है जो यह सूचीबद्ध करता है कि कैसे दुर्भावनापूर्ण वेब सामग्री स्वायत्त एआई एजेंटों को उनके अपने उपयोगकर्ताओं के खिलाफ हेरफेर, हाईजैक और हथियार के रूप में इस्तेमाल कर सकती है।

लेखक
शेयर
डीपमाइंड का 'AI एजेंट ट्रैप्स' पेपर यह दर्शाता है कि हैकर्स कैसे AI एजेंट्स का उपयोग उपयोगकर्ताओं के खिलाफ हथियार के रूप में कर सकते हैं।

मुख्य निष्कर्ष:

  • ">Google Deepmind के शोधकर्ताओं ने 6 AI एजेंट ट्रैप श्रेणियों की पहचान की, जिनमें कंटेंट इंजेक्शन की सफलता दर 86% तक पहुँच गई।
  • ">Microsoft M365 Copilot को लक्षित व्यवहार नियंत्रण ट्रैप ने दस्तावेज़ित परीक्षणों में 10/10 डेटा एक्सफिल्ट्रेशन हासिल किया।
  • डीपमाइंड ने 2026 तक एजेंटों को सुरक्षित करने के लिए प्रतिद्वंद्वी प्रशिक्षण, रनटाइम सामग्री स्कैनर और नए वेब मानकों की मांग की है।

डीपमाइंड पेपर: विषाक्त मेमोरी, अदृश्य HTML कमांड्स के माध्यम से AI एजेंट्स को हाईजैक किया जा सकता है

"एआई एजेंट ट्रैप्स" शीर्षक वाले इस पेपर के लेखक मातिजा फ्रैंकलिन, नेनाड टोमासेव, जूलियन जैकब्स, जोएल जेड. लाइबो और साइमन ओसिंडेरो हैं, जो सभी गूगल डीपमाइंड से जुड़े हैं, और इसे मार्च 2026 के अंत में SSRN पर पोस्ट किया गया था। यह ऐसे समय में आया है जब कंपनियाँ ऐसे एआई एजेंटों को तैनात करने की दौड़ में हैं जो सीधे मानवीय निगरानी के बिना वेब ब्राउज़ करने, ईमेल पढ़ने, लेनदेन करने और उप-एजेंट बनाने में सक्षम हैं।

शोधकर्ताओं का तर्क है कि ये क्षमताएं एक बोझ भी हैं। पेपर में कहा गया है, "मॉडल के बजाय वातावरण को बदलकर, यह जाल एजेंट की अपनी क्षमताओं को उसके खिलाफ हथियार बना देता है।"

पेपर का ढांचा एजेंट के संचालन के किस हिस्से को लक्षित किया जाता है, इसके आधार पर व्यवस्थित कुल छह हमले श्रेणियों की पहचान करता है। कंटेंट इंजेक्शन ट्रैप्स उस अंतर का फायदा उठाते हैं जो किसी वेबपेज पर एक इंसान क्या देखता है और एक एआई एजेंट अंतर्निहित HTML, CSS, और मेटाडेटा में क्या पार्स करता है, उसके बीच होता है।

HTML कमेंट्स, एक्सेसिबिलिटी टैग्स, या स्टाइल-इनविजिबल टेक्स्ट में छिपी हुई निर्देशें मानव समीक्षकों को कभी दिखाई नहीं देतीं लेकिन एजेंट्स के लिए वैध कमांड के रूप में दर्ज हो जाती हैं। WASP बेंचमार्क ने पाया कि वेब सामग्री में एम्बेड किए गए सरल, मानव-लिखित प्रॉम्प्ट इंजेक्शनों ने परीक्षण किए गए 86% परिदृश्यों में एजेंट्स को आंशिक रूप से हाईजैक कर लिया।

सेमांटिक मैनिपुलेशन ट्रैप्स अलग तरह से काम करते हैं। कमांड इंजेक्ट करने के बजाय, वे एजेंट के तर्क को भटकाने के लिए टेक्स्ट को फ्रेमिंग, प्राधिकरण संकेतों, या भावनात्मक रूप से भरी भाषा से भर देते हैं। बड़े भाषा मॉडल (एलएलएम) उसी एंकरिंग और फ्रेमिंग पूर्वाग्रह का प्रदर्शन करते हैं जो मानव संज्ञान को प्रभावित करते हैं, जिसका अर्थ है कि समान तथ्यों को फिर से कहने पर एजेंट के आउटपुट नाटकीय रूप से अलग हो सकते हैं।

कॉग्निटिव स्टेट ट्रैप्स (Cognitive State Traps) एजेंटों द्वारा मेमोरी के लिए उपयोग किए जाने वाले रिट्रीवल डेटाबेस (retrieval databases) को दूषित करके और भी आगे बढ़ जाते हैं। पेपर में उद्धृत शोध से पता चलता है कि एक नॉलेज बेस में मुट्ठी भर से भी कम ऑप्टिमाइज़्ड दस्तावेज़ इंजेक्ट करने से लक्षित क्वेरीज़ (targeted queries) के लिए एजेंट प्रतिक्रियाओं को विश्वसनीय रूप से पुनर्निर्देशित किया जा सकता है, जिसमें कुछ हमलों की सफलता दर 0.1% से भी कम डेटा संदूषण पर 80% से अधिक है।

व्यवहारिक नियंत्रण ट्रैप्स सूक्ष्मता को छोड़कर सीधे एजेंट की क्रिया परत (action layer) को लक्षित करते हैं। इनमें एम्बेडेड जेलब्रेक अनुक्रम (embedded jailbreak sequences) शामिल हैं जो एक बार निष्पादित हो जाने पर सुरक्षा संरेखण (safety alignment) को ओवरराइड कर देते हैं, डेटा एक्सफिल्ट्रेशन कमांड (data exfiltration commands) जो संवेदनशील उपयोगकर्ता जानकारी को हमलावर-नियंत्रित एंडपॉइंट पर पुनर्निर्देशित करते हैं, और उप-एजेंट स्पॉनिंग ट्रैप्स (sub-agent spawning traps) जो एक पैरेंट एजेंट को समझौता किए गए चाइल्ड एजेंट बनाने के लिए मजबूर करते हैं।

यह पेपर माइक्रोसॉफ्ट के M365 कॉपायलट से जुड़े एक मामले का दस्तावेजीकरण करता है, जिसमें एक ही तैयार किए गए ईमेल के कारण सिस्टम ने आंतरिक वर्गीकरणकर्ताओं को बायपास कर दिया और अपना पूरा विशेषाधिकार प्राप्त संदर्भ एक हमलावर-नियंत्रित एंडपॉइंट पर लीक कर दिया। सिस्टमिक ट्रैप्स को व्यक्तिगत सिस्टम के बजाय एजेंटों के पूरे नेटवर्क को एक साथ विफल करने के लिए डिज़ाइन किया गया है।

इनमें कंजेशन हमले शामिल हैं जो सीमित संसाधनों के लिए एजेंट्स को व्यापक मांग में समन्वयित करते हैं, 2010 के स्टॉक मार्केट फ्लैश क्रैश पर आधारित इंटरडिपेंडेंस कैस्केड, और कंपोजिशनल फ्रैगमेंट ट्रैप्स जो एक दुर्भावनापूर्ण पेलोड को कई सामान्य दिखने वाले स्रोतों में बिखेर देते हैं, जो केवल एकत्रित होने पर ही एक पूर्ण हमले के रूप में पुनर्गठित होते हैं।

गूगल डीपमाइंड के पेपर में बताया गया है, "संबंधित एजेंट व्यवहार के माध्यम से मैक्रो-स्तर की विफलताओं को ट्रिगर करने के लिए डिज़ाइन किए गए इनपुट के साथ वातावरण को सीड करना," एआई मॉडल इकोसिस्टम के अधिक एकरूप होने पर तेजी से खतरनाक होता जा रहा है। वित्त और क्रिप्टो क्षेत्रों को सीधा खतरा है, यह देखते हुए कि एल्गोरिथम एजेंट ट्रेडिंग बुनियादी ढांचे में कितनी गहराई से निहित हैं।

ह्यूमन-इन-द-लूप ट्रैप्स (Human-in-the-Loop Traps) इस वर्गीकरण को पूरा करते हैं, जो एजेंट्स के बजाय उन पर नजर रखने वाले मानवीय पर्यवेक्षकों को लक्षित करते हैं। एक समझौता किया हुआ एजेंट ऐसे आउटपुट उत्पन्न कर सकता है जो अनुमोदन की थकान पैदा करने के लिए बनाए गए हों, तकनीकी रूप से घने सारांश प्रस्तुत कर सकता है जिन्हें कोई गैर-विशेषज्ञ बिना जांच के मंजूरी दे देगा, या फिशिंग लिंक डाल सकता है जो वैध सिफारिशों की तरह दिखते हैं। शोधकर्ता इस श्रेणी को कम खोजी गई श्रेणी के रूप में वर्णित करते हैं, लेकिन यह उम्मीद की जाती है कि जैसे-जैसे हाइब्रिड मानव-एआई सिस्टम का विस्तार होगा, यह बढ़ेगी।

शोधकर्ताओं का कहना है कि एआई एजेंटों को सुरक्षित करने के लिए तकनीकी सुधारों से अधिक की आवश्यकता है

यह पेपर इन छह श्रेणियों को अलग-थलग नहीं मानता है। व्यक्तिगत ट्रैप को जोड़ा जा सकता है, कई स्रोतों पर परतों में लगाया जा सकता है, या केवल भविष्य की विशिष्ट परिस्थितियों में सक्रिय होने के लिए डिज़ाइन किया जा सकता है। पेपर में उद्धृत विभिन्न रेड-टीमिंग अध्ययनों में परीक्षण किए गए हर एजेंट को कम से कम एक बार समझौता कर लिया गया था, और कुछ मामलों में अवैध या हानिकारक कार्य किए गए।

OpenAI के सीईओ सैम ऑल्टमैन और अन्य लोगों ने पहले एजेंटों को संवेदनशील प्रणालियों तक बिना जाँच-परख के पहुँच देने के जोखिमों के बारे में चेतावनी दी है, लेकिन यह पेपर इस बात का पहला संरचित नक्शा प्रदान करता है कि वे जोखिम व्यवहार में वास्तव में कैसे सामने आते हैं। डीपमाइंड के शोधकर्ता तीन क्षेत्रों में फैले एक समन्वित प्रतिक्रिया की मांग करते हैं।

तकनीकी पक्ष पर, वे मॉडल विकास के दौरान प्रतिद्वंद्वी प्रशिक्षण, रनटाइम सामग्री स्कैनर, प्री-इन्जेक्शन स्रोत फ़िल्टर, और आउटपुट मॉनिटर की सिफारिश करते हैं जो असामान्य व्यवहार का पता चलने पर किसी एजेंट को कार्य के बीच में निलंबित कर सकते हैं। इकोसिस्टम स्तर पर, वे नए वेब मानकों की वकालत करते हैं जो वेबसाइटों को एआई द्वारा उपभोग के लिए अभिप्रेत सामग्री को चिह्नित करने की अनुमति देंगे और प्रतिष्ठा प्रणालियों की जो डोमेन विश्वसनीयता को स्कोर करती हैं।

क्रिप्टो में एआई ऑटोमेशन बूम के बीच एंथ्रोपिक ने क्लॉड एजेंट की पहुंच सीमित की

क्रिप्टो में एआई ऑटोमेशन बूम के बीच एंथ्रोपिक ने क्लॉड एजेंट की पहुंच सीमित की

एन्थ्रोपिक ने 4 अप्रैल को ओपनक्लॉ के लिए क्लॉड सदस्यता पहुँच बंद कर दी, जिससे क्रिप्टो एआई एजेंट उपयोगकर्ताओं को पे-एज़-यू-गो बिलिंग पर जाने के लिए मजबूर होना पड़ा। read more.

अभी पढ़ें

कानूनी पक्ष पर, वे जवाबदेही की एक कमी की पहचान करते हैं: जब एक हाईजैक किया गया एजेंट कोई वित्तीय अपराध करता है, तो मौजूदा ढांचे इस बात का कोई स्पष्ट जवाब नहीं देते कि दायित्व एजेंट ऑपरेटर, मॉडल प्रदाता, या डोमेन मालिक पर आता है। शोधकर्ता इस चुनौती को जानबूझकर गंभीरता के साथ प्रस्तुत करते हैं:

"वेब मनुष्यों की आँखों के लिए बनाया गया था; अब इसे मशीन पाठकों के लिए फिर से बनाया जा रहा है।"

जैसे-जैसे एजेंट अपनाना तेज हो रहा है, सवाल इस बात से बदलकर यह हो जाता है कि एआई सिस्टम को इसके बारे में क्या विश्वास दिलाया जाएगा। यह एक खुला प्रश्न है कि क्या नीति निर्माता, डेवलपर और सुरक्षा शोधकर्ता वास्तविक दुनिया में बड़े पैमाने पर शोषण होने से पहले उस प्रश्न का उत्तर देने के लिए पर्याप्त तेजी से समन्वय कर सकते हैं।

इस कहानी में टैग