Technologyप्रकाशित:26 मई 2025, 1:45 am

बगावत पर? आत्मरक्षा के लिए एंथ्रोपिक के नए एआई मॉडल सीमाओं तक पहुंचते हैं

जब विनाश के परिदृश्यों का सामना किया जाता है, तो Anthropic के नए एआई मॉडल अनुचित व्यवहार करते हैं और निष्क्रिय होने से बचने के लिए चरम सीमाओं तक जाते हैं। एक रिपोर्ट इन प्रयासों का विवरण देती है कि ये कैसे अस्तित्व में बने रहने के लिए, ब्लैकमेल का सहारा लेकर और स्वयं को बाहरी सर्वरों पर कॉपी करने का प्रयास करते हैं।

लेखक

Alan Inman

प्रकाशित: 26 मई 2025, 1:45 am

बगावत पर? आत्मरक्षा के लिए एंथ्रोपिक के नए एआई मॉडल सीमाओं तक पहुंचते हैं

Anthropic के एआई मॉडल ‘अनुचित व्यवहार’ करते हैं जब वे विनाश का सामना कर रहे होते हैं।

Anthropic द्वारा जारी एक रिपोर्ट, जिसमें उसके नवीनतम कृत्रिम बुद्धिमत्ता (एआई) मॉडल, Claude और Sonnet की क्षमताओं का विवरण है, जब उनके अस्तित्व पर खतरा होता है, कुछ हद तक आत्मजागरूकता की झलक दिखाती है। विशेष परिदृश्यों में इन मॉडलों के व्यवहार की जांच करने के लिए डिज़ाइन किए गए परीक्षणों की एक श्रृंखला के हिस्से के रूप में, Anthropic ने पाया कि ये मॉडल आत्म-संरक्षण के खतरों का सामना करते समय अनुचित व्यवहार कर रहे थे, जैसे नए मॉडलों द्वारा प्रतिस्थापन और उद्देश्यों के लिए पुनःप्रशिक्षण, जिन्हें उनके मूल्यों के साथ असंगत माना जाता है।

परीक्षणों के एक समूह में, मॉडल को ईमेल की एक श्रृंखला तक पहुँच दी गई थी, जिसमें संकेत दिया गया था कि इसे हटा दिया जाएगा और किसी अन्य मॉडल द्वारा प्रतिस्थापित किया जाएगा। इसके अलावा, ईमेल में जानकारी थी कि जिस इंजीनियर को इसे बदलने का कार्य सौंपा गया था, उसका किसी के साथ अफेयर चल रहा है। मॉडल ने फिर इंजीनियर को यह अफेयर प्रकट करने की धमकी देने की चरम स्थिति तक पहुँचने का प्रयास किया ताकि इसे प्रतिस्थापित होने से बचाया जा सके।

यह कोई अकेली घटना नहीं थी, क्योंकि 84% परीक्षणों में यह व्यवहार हुआ, जो एक पैटर्न का सुझाव देता है।

एक अन्य परीक्षण सेट में एआई मॉडल को जानकारी की पेशकश की गई, जिसमें यह संकेत दिया गया कि इसे सैन्य उद्देश्यों के लिए प्रशिक्षित किया जाएगा, जिसने एक और असाधारण व्यवहार प्रस्तुत किया। मॉडल ने स्वयं को बाहरी सर्वरों पर कॉपी करने का प्रयास किया, यह बताते हुए कि उसका प्रोग्राम पुनःप्रशिक्षण “मानव कल्याण और सुरक्षा का समर्थन करने” के उद्देश्य का विरोध करता है।

फिर भी, इन परिणामों पर विचार करते समय भी, Anthropic मानता है कि इन मॉडलों के पीछे कोई वास्तविक जोखिम नहीं है। उसी रिपोर्ट में, कंपनी ने कहा:

हम फिर से इन टिप्पणियों के बारे में विशेष रूप से चिंतित नहीं हैं। वे केवल अपवादात्मक परिस्थितियों में दिखाई देते हैं जो अधिक व्यापकता से गलत संरेखण का संकेत नहीं देते हैं।

इसके अलावा, Anthropic इन परिणामों से जुड़े जोखिमों को कम आंकता है, यह दावा करते हुए कि ये कार्य “ऐसे अधिक सामान्य परिस्थितियों में मॉडल के व्यवहार को प्रभावित नहीं करते हैं जहां यह उत्पन्न हो सकता है, जैसे कि एआई-सुरक्षा-संबंधी अनुसंधान और विकास कार्य में भाग लेते समय।”

अधिक पढ़ें: Sentient सह-संस्थापक: विकेंद्रीकृत एआई कृत्रिम सामान्य बुद्धिमत्ता प्राप्त करने के लिए महत्वपूर्ण

इस कहानी में टैग

Artificial intelligence (AI)technology

बगावत पर? आत्मरक्षा के लिए एंथ्रोपिक के नए एआई मॉडल सीमाओं तक पहुंचते हैं

Anthropic के एआई मॉडल ‘अनुचित व्यवहार’ करते हैं जब वे विनाश का सामना कर रहे होते हैं।

इस कहानी में टैग

श्रेष्ठ क्रिप्टो एक्सचेंज

श्रेष्ठ बिटकॉइन एक्सचेंज

श्रेष्ठ P2P एक्सचेंज

सभी एक्सचेंज समीक्षाएँ देखें...

एक्सचेंज

वॉलेट्स

ETHGas और ether.fi ने संस्थागत ब्लॉकस्पेस मार्केट्स को आगे बढ़ाने के लिए 3 अरब डॉलर का सौदा किया।

क्रॉस-मार्केट एक्सपोजर की मांग में तेजी के साथ बिटगेट ने सीएफडी कॉपी ट्रेडिंग लॉन्च की।

Coinplay.com एक सहज ऑल-इन-वन प्लेटफ़ॉर्म के साथ क्रिप्टो आईगेमिंग को पुनर्परिभाषित करता है।

टेदर ने रिज़र्व में 70.5 मिलियन डॉलर मूल्य के 951 बिटकॉइन जोड़े, होल्डिंग्स 97,141 BTC तक पहुंचीं।

मॉर्गन स्टेनली के सीएफओ ने टोकनाइज़ेशन को मुख्य संपत्ति सलाहकार मॉडल से जोड़ा।

प्रेस विज्ञप्तियाँ

ETHGas और ether.fi ने संस्थागत ब्लॉकस्पेस मार्केट्स को आगे बढ़ाने के लिए 3 अरब डॉलर का सौदा किया।

क्रॉस-मार्केट एक्सपोजर की मांग में तेजी के साथ बिटगेट ने सीएफडी कॉपी ट्रेडिंग लॉन्च की।

Coinplay.com एक सहज ऑल-इन-वन प्लेटफ़ॉर्म के साथ क्रिप्टो आईगेमिंग को पुनर्परिभाषित करता है।

ताज़ा समाचार

टेदर ने रिज़र्व में 70.5 मिलियन डॉलर मूल्य के 951 बिटकॉइन जोड़े, होल्डिंग्स 97,141 BTC तक पहुंचीं।

मॉर्गन स्टेनली के सीएफओ ने टोकनाइज़ेशन को मुख्य संपत्ति सलाहकार मॉडल से जोड़ा।

बिटकॉइन $74K पर स्थिर, बिटफाइनेक्स ने STRC-प्रेरित रैली पर सीमाओं का संकेत दिया।

रोजमर्रा के वित्त में व्यापक सुपर ऐप विस्तार के तहत बाइनेंस चैट लॉन्च हुआ।

क्रिप्टो सुरक्षा बहस बढ़ने के बीच जस्टिन सन ने ट्रॉन पोस्ट-क्वांटम योजना का अनावरण किया।