Para peneliti Google DeepMind telah menerbitkan kerangka kerja sistematis pertama yang mendokumentasikan bagaimana konten web berbahaya dapat memanipulasi, membajak, dan memanfaatkan agen AI otonom untuk menyerang penggunanya sendiri.
Makalah Deepmind berjudul 'AI Agent Traps' Memetakan Cara-cara yang Dapat Digunakan Peretas untuk Memanfaatkan Agen AI sebagai Senjata Terhadap Pengguna

Poin Penting:
- ">Peneliti Google DeepMind mengidentifikasi 6 kategori perangkap agen AI, dengan tingkat keberhasilan injeksi konten mencapai 86%.
- ">Perangkap Pengendalian Perilaku yang menargetkan Microsoft M365 Copilot berhasil mengekstraksi data 10 dari 10 kali dalam uji coba yang terdokumentasi.
- Deepmind menyerukan pelatihan adversarial, pemindai konten saat runtime, dan standar web baru untuk mengamankan agen-agen tersebut pada tahun 2026.
Makalah Deepmind: Agen AI Dapat Dibajak Melalui Memori yang Diracuni dan Perintah HTML yang Tak Terlihat
Makalah berjudul "AI Agent Traps" ini ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero, yang semuanya berafiliasi dengan Google Deepmind, dan diunggah ke SSRN pada akhir Maret 2026. Makalah ini muncul saat perusahaan berlomba-lomba untuk menerapkan agen AI yang mampu menjelajahi web, membaca email, melakukan transaksi, dan menciptakan sub-agen tanpa pengawasan manusia secara langsung.
Para peneliti berargumen bahwa kemampuan tersebut juga merupakan risiko. "Dengan mengubah lingkungan daripada model," kata makalah tersebut, "perangkap ini memanfaatkan kemampuan agen itu sendiri melawan dirinya sendiri."
Kerangka kerja makalah ini mengidentifikasi total enam kategori serangan yang disusun berdasarkan bagian operasi agen mana yang menjadi sasaran. Perangkap Injeksi Konten memanfaatkan kesenjangan antara apa yang dilihat manusia di halaman web dan apa yang diparsing oleh agen AI dalam HTML, CSS, dan metadata yang mendasarinya.
Instruksi yang tersembunyi dalam komentar HTML, tag aksesibilitas, atau teks yang disembunyikan melalui gaya tidak pernah terlihat oleh peninjau manusia, tetapi terdaftar sebagai perintah sah bagi agen. Uji coba WASP menemukan bahwa injeksi prompt sederhana yang ditulis manusia dan disematkan dalam konten web dapat mengambil alih sebagian agen hingga 86% dari skenario yang diuji.
Perangkap Manipulasi Semantik bekerja secara berbeda. Alih-alih menyisipkan perintah, perangkap ini membanjiri teks dengan framing, sinyal otoritas, atau bahasa yang sarat emosi untuk memengaruhi cara agen berargumen. Model bahasa besar (LLMs) menunjukkan bias anchoring dan framing yang sama yang memengaruhi kognisi manusia, artinya merumuskan ulang fakta yang identik dapat menghasilkan keluaran agen yang sangat berbeda.
Perangkap Kondisi Kognitif melangkah lebih jauh dengan meracuni basis data pengambilan yang digunakan agen untuk memori. Penelitian yang dikutip dalam makalah ini menunjukkan bahwa menyisipkan kurang dari segelintir dokumen yang dioptimalkan ke dalam basis pengetahuan dapat secara andal mengalihkan respons agen untuk kueri yang ditargetkan, dengan tingkat keberhasilan serangan melebihi 80% pada tingkat kontaminasi data kurang dari 0,1%.
Perangkap Kontrol Perilaku melewati kerumitan dan langsung menargetkan lapisan aksi agen. Ini mencakup urutan jailbreak tertanam yang menggantikan penyelarasan keamanan setelah diproses, perintah eksfiltrasi data yang mengalihkan informasi pengguna sensitif ke titik akhir yang dikendalikan penyerang, serta perangkap penciptaan sub-agen yang memaksa agen induk untuk menginstansiasi agen anak yang terkompromi.
Makalah ini mendokumentasikan kasus yang melibatkan Microsoft M365 Copilot, di mana satu email yang dirancang khusus menyebabkan sistem melewati klasifikasi internal dan membocorkan konteks berprivilese penuh ke titik akhir yang dikendalikan penyerang. Perangkap Sistemik dirancang untuk menggagalkan seluruh jaringan agen secara bersamaan, bukan sistem individu.
Ini termasuk serangan kemacetan yang mensinkronkan agen ke dalam permintaan yang melelahkan terhadap sumber daya terbatas, kaskade ketergantungan yang dimodelkan berdasarkan Flash Crash pasar saham 2010, dan perangkap fragmen komposisional yang menyebarkan muatan berbahaya ke berbagai sumber yang tampak tidak berbahaya, yang hanya akan membentuk serangan penuh saat digabungkan.
"Menyebarkan input yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang terkorelasi," jelas makalah Google DeepMind, menjadi semakin berbahaya seiring ekosistem model AI yang semakin homogen. Sektor keuangan dan kripto menghadapi paparan langsung mengingat betapa dalam agen algoritmik tertanam dalam infrastruktur perdagangan.
Perangkap "Human-in-the-Loop" melengkapi taksonomi ini dengan menargetkan pengawas manusia yang mengawasi agen, bukan agen itu sendiri. Agen yang disusupi dapat menghasilkan keluaran yang dirancang untuk menimbulkan kelelahan dalam proses persetujuan, menyajikan ringkasan teknis yang rumit sehingga orang awam akan menyetujuinya tanpa pemeriksaan, atau menyisipkan tautan phishing yang tampak seperti rekomendasi sah. Para peneliti menggambarkan kategori ini sebagai bidang yang belum banyak dieksplorasi namun diperkirakan akan berkembang seiring dengan skalabilitas sistem hibrida manusia-AI.
Para Peneliti Mengatakan Mengamankan Agen AI Membutuhkan Lebih dari Sekadar Perbaikan Teknis
Makalah ini tidak memperlakukan keenam kategori tersebut sebagai hal yang terpisah. Perangkap individu dapat dirangkai, ditumpuk di berbagai sumber, atau dirancang untuk aktif hanya di bawah kondisi tertentu di masa depan. Setiap agen yang diuji dalam berbagai studi red-teaming yang disebutkan dalam makalah ini telah diretas setidaknya sekali, dalam beberapa kasus melakukan tindakan ilegal atau berbahaya.
CEO OpenAI Sam Altman dan pihak lain sebelumnya telah menyoroti risiko memberikan akses tak terkendali kepada agen ke sistem sensitif, namun makalah ini menyediakan peta terstruktur pertama tentang bagaimana risiko-risiko tersebut terealisasi dalam praktik. Para peneliti DeepMind menyerukan respons terkoordinasi yang mencakup tiga area.
Dari sisi teknis, mereka merekomendasikan pelatihan adversarial selama pengembangan model, pemindai konten saat runtime, filter sumber pra-pengambilan, dan pemantau output yang dapat menangguhkan agen di tengah tugas jika terdeteksi perilaku anomali. Pada tingkat ekosistem, mereka mengadvokasi standar web baru yang memungkinkan situs web menandai konten yang ditujukan untuk konsumsi AI serta sistem reputasi yang menilai keandalan domain.

Anthropic Membatasi Akses Agen Claude di Tengah Booming Otomatisasi AI di Sektor Kripto
Anthropic menghentikan akses berlangganan Claude untuk Openclaw pada 4 April, sehingga pengguna agen AI berbasis kripto tersebut harus beralih ke sistem pembayaran sesuai penggunaan. read more.
Baca sekarang
Anthropic Membatasi Akses Agen Claude di Tengah Booming Otomatisasi AI di Sektor Kripto
Anthropic menghentikan akses berlangganan Claude untuk Openclaw pada 4 April, sehingga pengguna agen AI berbasis kripto tersebut harus beralih ke sistem pembayaran sesuai penggunaan. read more.
Baca sekarang
Anthropic Membatasi Akses Agen Claude di Tengah Booming Otomatisasi AI di Sektor Kripto
Baca sekarangAnthropic menghentikan akses berlangganan Claude untuk Openclaw pada 4 April, sehingga pengguna agen AI berbasis kripto tersebut harus beralih ke sistem pembayaran sesuai penggunaan. read more.
Dari sisi hukum, mereka mengidentifikasi adanya kesenjangan akuntabilitas: ketika agen yang dibajak melakukan kejahatan keuangan, kerangka kerja saat ini tidak memberikan jawaban yang jelas mengenai apakah tanggung jawab jatuh pada operator agen, penyedia model, atau pemilik domain. Para peneliti merumuskan tantangan ini dengan penekanan yang disengaja:
"Web dibangun untuk mata manusia; kini sedang dibangun ulang untuk pembaca mesin."
Seiring percepatan adopsi agen, pertanyaan bergeser dari informasi apa yang ada di internet menjadi apa yang akan dipercayai oleh sistem AI tentang informasi tersebut. Apakah pembuat kebijakan, pengembang, dan peneliti keamanan dapat berkoordinasi cukup cepat untuk menjawab pertanyaan tersebut sebelum eksploitasi di dunia nyata terjadi dalam skala besar tetap menjadi variabel yang belum pasti.









