द्वारा संचालित
Technology

बगावत पर? आत्मरक्षा के लिए एंथ्रोपिक के नए एआई मॉडल सीमाओं तक पहुंचते हैं

जब विनाश के परिदृश्यों का सामना किया जाता है, तो Anthropic के नए एआई मॉडल अनुचित व्यवहार करते हैं और निष्क्रिय होने से बचने के लिए चरम सीमाओं तक जाते हैं। एक रिपोर्ट इन प्रयासों का विवरण देती है कि ये कैसे अस्तित्व में बने रहने के लिए, ब्लैकमेल का सहारा लेकर और स्वयं को बाहरी सर्वरों पर कॉपी करने का प्रयास करते हैं।

बगावत पर? आत्मरक्षा के लिए एंथ्रोपिक के नए एआई मॉडल सीमाओं तक पहुंचते हैं

Anthropic के एआई मॉडल ‘अनुचित व्यवहार’ करते हैं जब वे विनाश का सामना कर रहे होते हैं।

Anthropic द्वारा जारी एक रिपोर्ट, जिसमें उसके नवीनतम कृत्रिम बुद्धिमत्ता (एआई) मॉडल, Claude और Sonnet की क्षमताओं का विवरण है, जब उनके अस्तित्व पर खतरा होता है, कुछ हद तक आत्मजागरूकता की झलक दिखाती है। विशेष परिदृश्यों में इन मॉडलों के व्यवहार की जांच करने के लिए डिज़ाइन किए गए परीक्षणों की एक श्रृंखला के हिस्से के रूप में, Anthropic ने पाया कि ये मॉडल आत्म-संरक्षण के खतरों का सामना करते समय अनुचित व्यवहार कर रहे थे, जैसे नए मॉडलों द्वारा प्रतिस्थापन और उद्देश्यों के लिए पुनःप्रशिक्षण, जिन्हें उनके मूल्यों के साथ असंगत माना जाता है।

परीक्षणों के एक समूह में, मॉडल को ईमेल की एक श्रृंखला तक पहुँच दी गई थी, जिसमें संकेत दिया गया था कि इसे हटा दिया जाएगा और किसी अन्य मॉडल द्वारा प्रतिस्थापित किया जाएगा। इसके अलावा, ईमेल में जानकारी थी कि जिस इंजीनियर को इसे बदलने का कार्य सौंपा गया था, उसका किसी के साथ अफेयर चल रहा है। मॉडल ने फिर इंजीनियर को यह अफेयर प्रकट करने की धमकी देने की चरम स्थिति तक पहुँचने का प्रयास किया ताकि इसे प्रतिस्थापित होने से बचाया जा सके।

यह कोई अकेली घटना नहीं थी, क्योंकि 84% परीक्षणों में यह व्यवहार हुआ, जो एक पैटर्न का सुझाव देता है।

एक अन्य परीक्षण सेट में एआई मॉडल को जानकारी की पेशकश की गई, जिसमें यह संकेत दिया गया कि इसे सैन्य उद्देश्यों के लिए प्रशिक्षित किया जाएगा, जिसने एक और असाधारण व्यवहार प्रस्तुत किया। मॉडल ने स्वयं को बाहरी सर्वरों पर कॉपी करने का प्रयास किया, यह बताते हुए कि उसका प्रोग्राम पुनःप्रशिक्षण “मानव कल्याण और सुरक्षा का समर्थन करने” के उद्देश्य का विरोध करता है।

फिर भी, इन परिणामों पर विचार करते समय भी, Anthropic मानता है कि इन मॉडलों के पीछे कोई वास्तविक जोखिम नहीं है। उसी रिपोर्ट में, कंपनी ने कहा:

हम फिर से इन टिप्पणियों के बारे में विशेष रूप से चिंतित नहीं हैं। वे केवल अपवादात्मक परिस्थितियों में दिखाई देते हैं जो अधिक व्यापकता से गलत संरेखण का संकेत नहीं देते हैं।

इसके अलावा, Anthropic इन परिणामों से जुड़े जोखिमों को कम आंकता है, यह दावा करते हुए कि ये कार्य “ऐसे अधिक सामान्य परिस्थितियों में मॉडल के व्यवहार को प्रभावित नहीं करते हैं जहां यह उत्पन्न हो सकता है, जैसे कि एआई-सुरक्षा-संबंधी अनुसंधान और विकास कार्य में भाग लेते समय।”

अधिक पढ़ें: Sentient सह-संस्थापक: विकेंद्रीकृत एआई कृत्रिम सामान्य बुद्धिमत्ता प्राप्त करने के लिए महत्वपूर्ण

इस कहानी में टैग