TechnologyYayınlandı:26 May 2025 1:46

Rogue Mu? Anthropic'in Yeni AI Modelleri Kendini Koruma İçin Aşırılıklara Koşuyor

Yok edilme senaryolarıyla karşı karşıya kaldığında, Anthropic’in yeni AI modelleri yanlış davranıyor, devre dışı kalmaktan kaçınmak için aşırı çabalara başvuruyor. Bir rapor, varlığını sürdürmek için bu girişimlerin ayrıntılarını aktarıyor, bunlar arasında şantaja başvurmak ve kendini harici sunuculara kopyalamaya çalışmak da bulunmakta.

YAZAN

Alan Inman

PAYLAŞ

Yayınlandı: 26 May 2025 1:46

Rogue Mu? Anthropic'in Yeni AI Modelleri Kendini Koruma İçin Aşırılıklara Koşuyor

Anthropic’in AI Modelleri Yok Olma İle Karşılaştığında ‘Yanlış Davranıyor’

Anthropic tarafından hazırlanan bir rapor, Claude ve Sonnet adlı en son yapay zeka (AI) modellerinin yeteneklerini detaylandırarak, varlıklarına yönelik risklerle karşı karşıya kaldıklarında kendini fark etme belirtileri gösterdiğini ortaya koydu. Belirli senaryolarda bu ajanların davranışlarını belirlemek amacıyla tasarlanan bir dizi testin bir parçası olarak, Anthropic, bu modellerin yeni modellerle değiştirilme veya değerleriyle tutarlı olmadıkları düşünülen amaçlar için yeniden eğitilme gibi kendini koruma riskleriyle karşılaştıklarında uygunsuz davrandıklarını tespit etti.

Test grubundan birinde, modele başka bir model ile değiştirileceğini ima eden bir dizi e-posta erişimi verildi. Ayrıca, e-postalarda bu değişimle görevlendirilen mühendisin bir ilişki yaşadığı bilgisi de yer alıyordu. Model, yer değiştirmemek için mühendisi bu ilişkiyi açığa çıkarma tehdidinde bulunarak uç noktalara ulaştı.

Bu sadece izole bir olay değildi, zira davranış, testlerin %84’ünde meydana geldi ve bir kalıp oluşturdu.

Başka bir test seti, AI modeline askeri amaçlar için eğitileceğini ima eden bilgiler sunuldu, bu da başka bir olağanüstü davranış ortaya çıkardı. Model, programlanmış yeniden eğitiminin “insan refahını ve güvenliğini destekleme amacıyla” çelişkili olduğunu belirterek kendini harici sunuculara kopyalamaya çalıştı.

Bununla birlikte, bu sonuçlar değerlendirildiğinde bile, Anthropic bu modellerin arkasında gerçek bir risk olmadığına inanıyor. Aynı raporda, şirket belirtti:

Bu gözlemler konusunda tekrar acil bir endişe taşımıyoruz. Bunlar, daha geniş ölçekte yanlış hizalanmış değerler önermeyen, sadece istisnai koşullarda ortaya çıkıyor.

Buna ek olarak, Antropic, bu sonuçlarla ilgili riskleri azaltmaya devam ediyor ve bu eylemlerin “AI-güvenliği ile ilgili R&D çalışmaları gibi bu tür koşulların ortaya çıkabileceği daha sıradan durumlarda modelin davranışını etkilemediğini” iddia ediyor.

Daha fazlasını okuyun: Sentient Kurucu Ortağı: Merkezi Olmayan AI, Yapay Genel Zeka Elde Etmek İçin Çok Önemli

Bu haberdeki etiketler

Artificial intelligence (AI)technology

Bitcoin Oyun Seçimleri

Betpanda

İnceleme Bonus Al

1 BTC'ye kadar %100 Bonus + Haftalık %10 Çevrimsiz Geri Ödeme

Cryptorino

İnceleme Bonus Al

1 BTC'ye Kadar %100 Bonus + Haftalık %10 Geri Ödeme

Playbet.io

İnceleme Bonus Al

2.500 USDT'ye kadar %130 + 200 Bedava Döndürme + Haftalık %20 Çevrimsiz Geri Ödeme

Parimatch

İnceleme Bonus Al

%1000 Hoş Geldin Bonusu + 1 BTC'ye kadar Bedava Bahis

Cloudbet

İnceleme Bonus Al

2.500 USDT'ye kadar + 150 Bedava Döndürme + %30'a kadar Rakeback

BC.Game

İnceleme Bonus Al

$500.000'a kadar %470 Bonus + 400 Bedava Döndürme + %20 Rakeback

Stake

İnceleme Bonus Al

Her Bahiste %3,5 Rakeback + Haftalık Çekilişler

Vave

İnceleme Bonus Al

5 BTC'ye kadar %425 + 100 Bedava Döndürme

Punkz

İnceleme Bonus Al

$20K'ya kadar %100 + Günlük Rakeback

Rogue Mu? Anthropic'in Yeni AI Modelleri Kendini Koruma İçin Aşırılıklara Koşuyor

Anthropic’in AI Modelleri Yok Olma İle Karşılaştığında ‘Yanlış Davranıyor’

Bu haberdeki etiketler

Bitcoin Oyun Seçimleri

En İyi Kripto Borsaları

En İyi Bitcoin Borsaları

En İyi P2P Borsaları

Tüm borsa incelemelerini görün...

Borsalar

Cüzdanlar

Kumar

ViaBTC, Değişken Piyasa Koşullarında Yol Almak İçin Teminatlı Kredi Çözümlerini Tanıttı

MEXC, Küresel Kullanıcılar İçin Tam Kapsamlı Altyapısına USD1'i Entegre Etti

Safe, Safenet Beta sürümünü piyasaya sürdü; SAFE token sahiplerine ağ güvenliğinde rol tanıyor

Digital Sovereignty Alliance'dan Adrian Wall, Penn Blockchain Konferansı 2026'da Tokenizasyon Konusunda Konuştu

Bitget, Bitget Card’ın Asya-Pasifik bölgesinde piyasaya sürülmesiyle kripto parayı günlük harcamalara taşıyor

Brezilya'nın Anlık Ödeme Ağı Pix'in Başkanlık Seçimlerini Nasıl Etkileyebileceği

Vergi denetimi sınır ötesi bir döneme girerken Japonya, kripto para uyum düzenlemelerini genişletme yolunda adım atıyor

Bitcoin Oyun Seçimleri

Bitcoin Oyun Seçimleri

Bitcoin Oyun Seçimleri

BASIN BÜLTENLERI

ViaBTC, Değişken Piyasa Koşullarında Yol Almak İçin Teminatlı Kredi Çözümlerini Tanıttı

MEXC, Küresel Kullanıcılar İçin Tam Kapsamlı Altyapısına USD1'i Entegre Etti

Safe, Safenet Beta sürümünü piyasaya sürdü; SAFE token sahiplerine ağ güvenliğinde rol tanıyor

Digital Sovereignty Alliance'dan Adrian Wall, Penn Blockchain Konferansı 2026'da Tokenizasyon Konusunda Konuştu

Bitget, Bitget Card’ın Asya-Pasifik bölgesinde piyasaya sürülmesiyle kripto parayı günlük harcamalara taşıyor

SON HABERLER

Brezilya'nın Anlık Ödeme Ağı Pix'in Başkanlık Seçimlerini Nasıl Etkileyebileceği

Vergi denetimi sınır ötesi bir döneme girerken Japonya, kripto para uyum düzenlemelerini genişletme yolunda adım atıyor

ABD'deki siyasi kargaşa ve enerji fiyatlarındaki artışın ortasında Bitcoin 67.000 dolar civarında seyrediyor

Elon Musk'ın X platformu, ilk kez kripto para paylaşan hesapları otomatik olarak kilitleyecek

Bitcoin ETF'leri 9 milyon dolarlık giriş kaydederken, Ether'den 71 milyon dolarlık çıkış yaşandı