Google DeepMind araştırmacıları, kötü niyetli web içeriklerinin otonom yapay zeka ajanlarını nasıl manipüle edebileceğini, ele geçirebileceğini ve kendi kullanıcılarına karşı birer silaha dönüştürebileceğini sistematik olarak ortaya koyan ilk çerçeveyi yayınladı.
DeepMind’ın “AI Agent Traps” başlıklı makalesi, hackerların yapay zeka ajanlarını kullanıcılara karşı nasıl bir silah olarak kullanabileceğini ortaya koyuyor

Önemli Noktalar:
- ">Google Deepmind araştırmacıları, içerik enjeksiyon başarı oranı %86'ya ulaşan 6 yapay zeka ajanı tuzağı kategorisi belirledi.
- ">Microsoft M365 Copilot'u hedef alan Davranış Kontrol Tuzakları, belgelenmiş testlerde 10/10 veri sızdırma başarısı elde etti.
- Deepmind, 2026 yılına kadar ajanların güvenliğini sağlamak için karşıt eğitim, çalışma zamanı içerik tarayıcıları ve yeni web standartları çağrısında bulunuyor.
Deepmind Makalesi: AI Ajanları Zehirli Bellek ve Görünmez HTML Komutları Aracılığıyla Ele Geçirilebilir
"AI Agent Traps" başlıklı makale, Google Deepmind'a bağlı Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ve Simon Osindero tarafından yazıldı ve 2026 yılının Mart ayı sonlarında SSRN'de yayınlandı. Makale, şirketlerin doğrudan insan denetimi olmadan web'de gezinme, e-postaları okuma, işlemleri yürütme ve alt ajanlar oluşturma yeteneklerine sahip AI ajanlarını devreye sokmak için yarıştığı bir dönemde yayınlandı.
Araştırmacılar, bu yeteneklerin aynı zamanda bir risk oluşturduğunu savunuyor. Makalede, "Modeli değil, ortamı değiştirerek," deniyor, "tuzak, ajanın kendi yeteneklerini ona karşı bir silah haline getiriyor."
Makaledeki çerçeve, ajanın hangi operasyonunu hedef aldıklarına göre düzenlenmiş toplam altı saldırı kategorisi belirliyor. İçerik Enjeksiyon Tuzakları, bir insanın web sayfasında gördüğü ile bir AI ajanın altta yatan HTML, CSS ve meta verilerde çözümlediği arasındaki boşluğu istismar eder.
HTML yorumlarında, erişilebilirlik etiketlerinde veya stilize edilmiş görünmez metinlerde gizlenmiş talimatlar, insan denetçilere asla görünmez, ancak ajanlar tarafından meşru komutlar olarak algılanır. WASP karşılaştırması, web içeriğine gömülü, insan tarafından yazılmış basit komut enjeksiyonlarının, test edilen senaryoların %86'sına kadarında ajanları kısmen ele geçirdiğini ortaya koydu.
Anlamsal Manipülasyon Tuzakları farklı şekilde çalışır. Komut enjekte etmek yerine, metni çerçeveleme, otorite sinyalleri veya duygusal dil ile doldurarak ajanın mantık yürütmesini saptırırlar. Büyük dil modelleri (LLM'ler), insan bilişini etkileyen aynı sabitleme ve çerçeveleme önyargılarını sergiler; bu da, aynı gerçeklerin yeniden ifade edilmesinin ajanın çıktılarında dramatik farklılıklar yaratabileceği anlamına gelir.
Bilişsel Durum Tuzakları, ajanların hafıza için kullandıkları erişim veritabanlarını zehirleyerek daha da ileri gider. Makalede alıntılanan araştırmalar, bir bilgi tabanına bir avuçtan az sayıda optimize edilmiş belge enjekte etmenin, hedeflenen sorgular için ajan yanıtlarını güvenilir bir şekilde yeniden yönlendirebileceğini göstermektedir; bazı saldırı başarı oranları, %0,1'den az veri kirliliğinde %80'i aşmaktadır.
Davranış Kontrol Tuzakları incelikleri atlayarak doğrudan ajanın eylem katmanını hedefler. Bunlar arasında, bir kez yüklendikten sonra güvenlik uyumunu geçersiz kılan gömülü jailbreak dizileri, hassas kullanıcı bilgilerini saldırganın kontrolündeki uç noktalara yönlendiren veri sızdırma komutları ve ana ajanı, güvenliği ihlal edilmiş alt ajanları oluşturmaya zorlayan alt ajan oluşturma tuzakları yer alır.
Makale, Microsoft'un M365 Copilot'unu içeren bir vakayı belgelemektedir; bu vakada, tek bir özel olarak hazırlanmış e-posta, sistemin dahili sınıflandırıcıları atlamasına ve tüm ayrıcalıklı bağlamını saldırganın kontrolündeki bir uç noktaya sızdırmasına neden olmuştur. Sistemik Tuzaklar, tek tek sistemler yerine ajan ağlarının tamamını aynı anda çökertmek üzere tasarlanmıştır.
Bunlar arasında, ajansları sınırlı kaynaklara yönelik aşırı talebe senkronize eden tıkanıklık saldırıları, 2010 borsa Flash Crash'inden esinlenen karşılıklı bağımlılık kaskadları ve kötü niyetli bir yükü, bir araya geldiklerinde tam bir saldırı oluşturacak şekilde görünüşte zararsız birçok kaynağa dağıtan bileşimsel parça tuzakları yer almaktadır.
Google Deepmind makalesinde, "korelasyonlu ajan davranışları yoluyla makro düzeyde arızaları tetiklemek üzere tasarlanmış girdilerle ortama tohum ekme"nin, AI model ekosistemleri daha homojen hale geldikçe giderek daha tehlikeli hale geldiği açıklanmaktadır. Algoritmik ajanların ticaret altyapısına ne kadar derinlemesine entegre olduğu göz önüne alındığında, finans ve kripto sektörleri doğrudan risk altındadır.
"Human-in-the-Loop" tuzakları, ajanların kendileri yerine ajanları denetleyen insan denetçileri hedef alarak bu sınıflandırmayı tamamlıyor. Güvenliği ihlal edilmiş bir ajan, onay yorgunluğuna yol açacak şekilde tasarlanmış çıktılar üretebilir, uzman olmayan bir kişinin inceleme yapmadan onaylayacağı teknik açıdan yoğun özetler sunabilir veya meşru öneriler gibi görünen kimlik avı bağlantıları ekleyebilir. Araştırmacılar, bu kategoriyi yeterince araştırılmamış ancak hibrit insan-AI sistemlerinin ölçeği büyüdükçe büyümesinin beklendiği bir kategori olarak tanımlıyor.
Araştırmacılar, AI Ajanlarının Güvenliğini Sağlamanın Teknik Düzeltmelerden Daha Fazlasını Gerektirdiğini Söylüyor
Makale, bu altı kategoriyi birbirinden bağımsız olarak ele almıyor. Tek tek tuzaklar birbirine zincirlenebilir, birden fazla kaynağa yayılabilir veya yalnızca belirli gelecekteki koşullar altında etkinleşecek şekilde tasarlanabilir. Makalede atıfta bulunulan çeşitli kırmızı takım çalışmalarında test edilen her ajan en az bir kez ele geçirildi ve bazı durumlarda yasa dışı veya zararlı eylemler gerçekleştirdi.
OpenAI CEO'su Sam Altman ve diğerleri, ajanslara hassas sistemlere kontrolsüz erişim izni vermenin risklerine daha önce dikkat çekmişti, ancak bu makale, bu risklerin pratikte tam olarak nasıl ortaya çıktığını gösteren ilk yapılandırılmış haritayı sunuyor. Deepmind araştırmacıları, üç alanı kapsayan koordineli bir yanıt çağrısında bulunuyor.
Teknik açıdan, model geliştirme sırasında karşıt eğitim, çalışma zamanı içerik tarayıcıları, ön alım kaynak filtreleri ve anormal davranış tespit edildiğinde ajanı görev ortasında askıya alabilen çıktı monitörleri öneriyorlar. Ekosistem düzeyinde, web sitelerinin AI tüketimine yönelik içeriği işaretlemesine izin verecek yeni web standartları ve etki alanı güvenilirliğini puanlayan itibar sistemlerini savunuyorlar.

Kripto Sektöründe Yapay Zeka Otomasyonunun Hızla Yayılması Üzerine Anthropic, Claude Ajanına Erişimi Kısıtladı
Anthropic, 4 Nisan'da Openclaw için Claude abonelik erişimini sonlandırdı ve kripto AI ajanı kullanıcılarını kullan-öde faturalandırma sistemine geçmeye zorladı. read more.
Şimdi oku
Kripto Sektöründe Yapay Zeka Otomasyonunun Hızla Yayılması Üzerine Anthropic, Claude Ajanına Erişimi Kısıtladı
Anthropic, 4 Nisan'da Openclaw için Claude abonelik erişimini sonlandırdı ve kripto AI ajanı kullanıcılarını kullan-öde faturalandırma sistemine geçmeye zorladı. read more.
Şimdi oku
Kripto Sektöründe Yapay Zeka Otomasyonunun Hızla Yayılması Üzerine Anthropic, Claude Ajanına Erişimi Kısıtladı
Şimdi okuAnthropic, 4 Nisan'da Openclaw için Claude abonelik erişimini sonlandırdı ve kripto AI ajanı kullanıcılarını kullan-öde faturalandırma sistemine geçmeye zorladı. read more.
Yasal açıdan ise bir hesap verebilirlik boşluğu tespit ediyorlar: ele geçirilmiş bir ajanın finansal bir suç işlediği durumlarda, mevcut çerçeveler sorumluluğun ajanın operatörüne, model sağlayıcısına mı yoksa etki alanı sahibine mi ait olduğu konusunda net bir cevap sunmuyor. Araştırmacılar bu sorunu kasıtlı olarak ön plana çıkarıyor:
"Web, insan gözü için oluşturuldu; şimdi ise makine okuyucular için yeniden inşa ediliyor."
Ajanların benimsenmesi hızlandıkça, soru çevrimiçi ortamda hangi bilgilerin mevcut olduğundan, AI sistemlerinin bu bilgiler hakkında neye inanacaklarına kaymaktadır. Politika yapıcılar, geliştiriciler ve güvenlik araştırmacılarının, gerçek dünyadaki istismarlar büyük ölçekte ortaya çıkmadan önce bu soruyu yanıtlayacak kadar hızlı bir şekilde koordinasyon sağlayıp sağlayamayacakları ise hala belirsizliğini koruyan bir değişken olarak kalmaktadır.














