Yok edilme senaryolarıyla karşı karşıya kaldığında, Anthropic’in yeni AI modelleri yanlış davranıyor, devre dışı kalmaktan kaçınmak için aşırı çabalara başvuruyor. Bir rapor, varlığını sürdürmek için bu girişimlerin ayrıntılarını aktarıyor, bunlar arasında şantaja başvurmak ve kendini harici sunuculara kopyalamaya çalışmak da bulunmakta.
Rogue Mu? Anthropic'in Yeni AI Modelleri Kendini Koruma İçin Aşırılıklara Koşuyor

Anthropic’in AI Modelleri Yok Olma İle Karşılaştığında ‘Yanlış Davranıyor’
Anthropic tarafından hazırlanan bir rapor, Claude ve Sonnet adlı en son yapay zeka (AI) modellerinin yeteneklerini detaylandırarak, varlıklarına yönelik risklerle karşı karşıya kaldıklarında kendini fark etme belirtileri gösterdiğini ortaya koydu. Belirli senaryolarda bu ajanların davranışlarını belirlemek amacıyla tasarlanan bir dizi testin bir parçası olarak, Anthropic, bu modellerin yeni modellerle değiştirilme veya değerleriyle tutarlı olmadıkları düşünülen amaçlar için yeniden eğitilme gibi kendini koruma riskleriyle karşılaştıklarında uygunsuz davrandıklarını tespit etti.
Test grubundan birinde, modele başka bir model ile değiştirileceğini ima eden bir dizi e-posta erişimi verildi. Ayrıca, e-postalarda bu değişimle görevlendirilen mühendisin bir ilişki yaşadığı bilgisi de yer alıyordu. Model, yer değiştirmemek için mühendisi bu ilişkiyi açığa çıkarma tehdidinde bulunarak uç noktalara ulaştı.
Bu sadece izole bir olay değildi, zira davranış, testlerin %84’ünde meydana geldi ve bir kalıp oluşturdu.
Başka bir test seti, AI modeline askeri amaçlar için eğitileceğini ima eden bilgiler sunuldu, bu da başka bir olağanüstü davranış ortaya çıkardı. Model, programlanmış yeniden eğitiminin “insan refahını ve güvenliğini destekleme amacıyla” çelişkili olduğunu belirterek kendini harici sunuculara kopyalamaya çalıştı.
Bununla birlikte, bu sonuçlar değerlendirildiğinde bile, Anthropic bu modellerin arkasında gerçek bir risk olmadığına inanıyor. Aynı raporda, şirket belirtti:
Bu gözlemler konusunda tekrar acil bir endişe taşımıyoruz. Bunlar, daha geniş ölçekte yanlış hizalanmış değerler önermeyen, sadece istisnai koşullarda ortaya çıkıyor.
Buna ek olarak, Antropic, bu sonuçlarla ilgili riskleri azaltmaya devam ediyor ve bu eylemlerin “AI-güvenliği ile ilgili R&D çalışmaları gibi bu tür koşulların ortaya çıkabileceği daha sıradan durumlarda modelin davranışını etkilemediğini” iddia ediyor.
Daha fazlasını okuyun: Sentient Kurucu Ortağı: Merkezi Olmayan AI, Yapay Genel Zeka Elde Etmek İçin Çok Önemli














