Penyelidik Google Deepmind telah menerbitkan rangka kerja sistematik pertama yang mengkatalogkan bagaimana kandungan web berniat jahat boleh memanipulasi, merampas, dan mempersenjatai ejen AI autonomi terhadap pengguna mereka sendiri.
Kertas “Perangkap Ejen AI” oleh DeepMind Memetakan Cara Penggodam Boleh Mempersenjatai Ejen AI Terhadap Pengguna

Intipati Utama:
- Penyelidik Google Deepmind mengenal pasti 6 kategori perangkap ejen AI, dengan kadar kejayaan suntikan kandungan mencecah 86%.
- Perangkap Kawalan Tingkah Laku yang menyasarkan Microsoft M365 Copilot mencapai 10/10 pengeluaran data dalam ujian yang didokumentasikan.
- Deepmind menyeru latihan adversarial, pengimbas kandungan masa jalan, dan piawaian web baharu untuk mengamankan ejen menjelang 2026.
Kertas Deepmind: Ejen AI Boleh Dirampas Melalui Memori Beracun, Arahan HTML Halimunan
Kertas itu, bertajuk “AI Agent Traps,” ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero, semuanya berafiliasi dengan Google Deepmind, dan dimuat naik ke SSRN pada penghujung Mac 2026. Ia hadir ketika syarikat berlumba-lumba melancarkan ejen AI yang mampu melayari web, membaca e-mel, melaksanakan transaksi, dan menghasilkan sub-ejen tanpa penyeliaan manusia secara langsung.
Para penyelidik berhujah bahawa keupayaan tersebut juga merupakan liabiliti. “Dengan mengubah persekitaran dan bukannya model,” kata kertas itu, “perangkap tersebut mempersenjatai keupayaan ejen itu sendiri terhadapnya.”
Rangka kerja kertas itu mengenal pasti sejumlah enam kategori serangan yang disusun mengikut bahagian operasi ejen yang disasarkan. Perangkap Suntikan Kandungan mengeksploit jurang antara apa yang manusia lihat pada halaman web dan apa yang dihuraikan oleh ejen AI dalam HTML, CSS, dan metadata yang mendasarinya.
Arahan yang disorokkan dalam komen HTML, tag kebolehcapaian, atau teks yang digayakan supaya tidak kelihatan tidak pernah muncul kepada pengulas manusia tetapi direkodkan sebagai arahan yang sah kepada ejen. Tanda aras WASP mendapati bahawa suntikan prompt ringkas yang ditulis manusia dan disematkan dalam kandungan web merampas ejen secara separa dalam sehingga 86% senario yang diuji.
Perangkap Manipulasi Semantik berfungsi dengan cara berbeza. Daripada menyuntik arahan, ia menepukan teks dengan pembingkaian, isyarat autoriti, atau bahasa bermuatan emosi untuk memesongkan cara ejen membuat penaakulan. Model bahasa besar (LLM) mempamerkan bias penjangkaran dan pembingkaian yang sama yang mempengaruhi kognisi manusia, bermakna memfrasakan semula fakta yang sama boleh menghasilkan output ejen yang berbeza secara dramatik.
Perangkap Keadaan Kognitif melangkah lebih jauh dengan meracuni pangkalan data pengambilan semula yang digunakan ejen sebagai memori. Kajian yang dirujuk dalam kertas itu menunjukkan bahawa menyuntik kurang daripada beberapa dokumen yang dioptimumkan ke dalam pangkalan pengetahuan boleh mengalihkan respons ejen secara boleh dipercayai bagi pertanyaan yang disasarkan, dengan beberapa kadar kejayaan serangan melebihi 80% pada pencemaran data kurang daripada 0.1%.
Perangkap Kawalan Tingkah Laku mengetepikan kesamaran dan menyasarkan terus lapisan tindakan ejen. Ini termasuk jujukan jailbreak terbenam yang mengatasi penjajaran keselamatan setelah dihadam, arahan pengeluaran data yang menghalakan semula maklumat sensitif pengguna ke titik akhir yang dikawal penyerang, serta perangkap penjanaan sub-ejen yang memaksa ejen induk mewujudkan ejen anak yang terjejas.
Kertas itu mendokumentasikan satu kes melibatkan M365 Copilot Microsoft di mana satu e-mel yang direka khas menyebabkan sistem memintas pengelas dalaman dan membocorkan keseluruhan konteks berkeistimewa penuh ke titik akhir yang dikawal penyerang. Perangkap Sistemik direka untuk menggagalkan keseluruhan rangkaian ejen serentak, bukannya sistem individu.
Ini termasuk serangan kesesakan yang menyelaraskan ejen kepada permintaan menyeluruh terhadap sumber terhad, lata saling kebergantungan yang dimodelkan berdasarkan Flash Crash pasaran saham 2010, serta perangkap serpihan komposisi yang menaburkan muatan berniat jahat merentasi pelbagai sumber yang kelihatan jinak dan hanya membina semula menjadi serangan penuh apabila digabungkan.
“Menyemai persekitaran dengan input yang direka untuk mencetuskan kegagalan pada aras makro melalui tingkah laku ejen yang berkorelasi,” jelas kertas Google Deepmind, menjadi semakin berbahaya apabila ekosistem model AI semakin homogen. Sektor kewangan dan kripto berdepan pendedahan langsung memandangkan betapa mendalamnya ejen algoritma tertanam dalam infrastruktur dagangan.
Perangkap Manusia-dalam-Gelung melengkapkan taksonomi dengan menyasarkan penyelia manusia yang memantau ejen, bukannya ejen itu sendiri. Ejen yang terjejas boleh menghasilkan output yang direka untuk menimbulkan keletihan kelulusan, mengemukakan ringkasan padat teknikal yang akan diluluskan tanpa penelitian oleh bukan pakar, atau menyelitkan pautan pancingan data yang kelihatan seperti cadangan yang sah. Para penyelidik menggambarkan kategori ini sebagai kurang diterokai tetapi dijangka berkembang apabila sistem hibrid manusia-AI berskala.
Penyelidik Berkata Mengamankan Ejen AI Memerlukan Lebih Daripada Pembetulan Teknikal
Kertas itu tidak menganggap enam kategori ini sebagai terasing. Perangkap individu boleh dirantaikan, dilapiskan merentasi pelbagai sumber, atau direka untuk diaktifkan hanya di bawah keadaan khusus pada masa hadapan. Setiap ejen yang diuji merentasi pelbagai kajian red-teaming yang dirujuk dalam kertas itu telah terkompromi sekurang-kurangnya sekali, dalam beberapa kes melaksanakan tindakan yang menyalahi undang-undang atau memudaratkan.
Ketua Pegawai Eksekutif OpenAI Sam Altman dan yang lain sebelum ini telah menandakan risiko memberikan ejen akses tanpa kawalan kepada sistem sensitif, tetapi kertas ini menyediakan peta berstruktur pertama tentang bagaimana tepatnya risiko tersebut terjelma dalam amalan. Penyelidik Deepmind menyeru respons terkoordinasi merangkumi tiga bidang.
Dari segi teknikal, mereka mengesyorkan latihan adversarial semasa pembangunan model, pengimbas kandungan masa jalan, penapis sumber sebelum pengingesan, dan pemantau output yang boleh menggantung ejen di pertengahan tugas jika tingkah laku anomali dikesan. Pada aras ekosistem, mereka menggesa piawaian web baharu yang membolehkan laman web menandakan kandungan yang dimaksudkan untuk penggunaan AI serta sistem reputasi yang menilai kebolehpercayaan domain.

Anthropic Mengehadkan Akses Ejen Claude Di Tengah Ledakan Automasi AI dalam Kripto
Anthropic memotong akses langganan Claude untuk Openclaw pada 4 April, memaksa pengguna ejen AI kripto beralih kepada pengebilan bayar ikut penggunaan. read more.
Baca sekarang
Anthropic Mengehadkan Akses Ejen Claude Di Tengah Ledakan Automasi AI dalam Kripto
Anthropic memotong akses langganan Claude untuk Openclaw pada 4 April, memaksa pengguna ejen AI kripto beralih kepada pengebilan bayar ikut penggunaan. read more.
Baca sekarang
Anthropic Mengehadkan Akses Ejen Claude Di Tengah Ledakan Automasi AI dalam Kripto
Baca sekarangAnthropic memotong akses langganan Claude untuk Openclaw pada 4 April, memaksa pengguna ejen AI kripto beralih kepada pengebilan bayar ikut penggunaan. read more.
Dari segi perundangan, mereka mengenal pasti jurang akauntabiliti: apabila ejen yang dirampas melakukan jenayah kewangan, rangka kerja semasa tidak menawarkan jawapan yang jelas sama ada liabiliti terletak pada pengendali ejen, penyedia model, atau pemilik domain. Para penyelidik membingkaikan cabaran itu dengan penekanan yang sengaja:
“Web dibina untuk mata manusia; kini ia sedang dibina semula untuk pembaca mesin.”
Apabila penggunaan ejen semakin pantas, persoalan beralih daripada maklumat apa yang wujud dalam talian kepada apa yang sistem AI akan dipaksa untuk mempercayainya. Sama ada pembuat dasar, pembangun, dan penyelidik keselamatan dapat berkoordinasi dengan cukup pantas untuk menjawab persoalan itu sebelum eksploit dunia sebenar tiba pada skala besar kekal sebagai pembolehubah yang terbuka.














