Inilathala ng mga mananaliksik ng Google Deepmind ang unang sistematikong balangkas na nagkakatalogo kung paano kayang manipulahin, i-hijack, at gawing sandata ng masasamang nilalaman sa web ang mga awtonomong AI agent laban sa sarili nilang mga gumagamit.
Ang papel ng DeepMind na “AI Agent Traps” ay nagmamapa kung paano maaaring gawing sandata ng mga hacker ang mga AI agent laban sa mga user

Mahahalagang Puntos:
- Natukoy ng mga mananaliksik ng Google Deepmind ang 6 na kategorya ng AI agent trap, na umaabot sa 86% ang mga success rate ng content injection.
- Ang mga Behavioural Control Trap na tumatarget sa Microsoft M365 Copilot ay nakapagtala ng 10/10 na pag-exfiltrate ng data sa mga nakadokumentong test.
- Nanawagan ang Deepmind para sa adversarial training, mga runtime content scanner, at mga bagong web standard upang masiguro ang mga agent pagsapit ng 2026.
Deepmind Paper: Maaaring Ma-hijack ang AI Agents sa Pamamagitan ng Nalason na Memorya, Hindi Nakikitang HTML Commands
Ang papel, na may pamagat na “AI Agent Traps,” ay isinulat nina Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, at Simon Osindero, na pawang kaanib ng Google Deepmind, at in-post sa SSRN noong huling bahagi ng Marso 2026. Dumarating ito habang nag-uunahan ang mga kumpanya sa pag-deploy ng mga AI agent na kayang mag-browse sa web, magbasa ng email, magsagawa ng mga transaksyon, at lumikha ng mga sub-agent nang walang direktang pangangasiwa ng tao.
Ipinapahayag ng mga mananaliksik na pananagutan din ang mga kakayahang iyon. “Sa pamamagitan ng pagbabago sa kapaligiran sa halip na sa modelo,” ayon sa papel, “ginagawang sandata ng bitag ang mismong mga kakayahan ng agent laban dito.”
Tinutukoy ng balangkas ng papel ang kabuuang anim na kategorya ng pag-atake na inayos ayon sa kung aling bahagi ng operasyon ng agent ang tinatarget. Sinasamantala ng Content Injection Traps ang agwat sa pagitan ng nakikita ng tao sa isang webpage at ng na-pa-parse ng isang AI agent sa ilalim na HTML, CSS, at metadata.
Ang mga instruksiyong nakatago sa mga HTML comment, accessibility tag, o tekstong ginawang hindi nakikita sa styling ay hindi kailanman lumilitaw sa mga human reviewer ngunit nare-record bilang lehitimong mga utos para sa mga agent. Natuklasan ng WASP benchmark na ang mga simple, isinulat-ng-taong prompt injection na naka-embed sa web content ay bahagyang nakaka-hijack ng mga agent sa hanggang 86% ng mga senaryong sinubukan.
Iba ang paraan ng Semantic Manipulation Traps. Sa halip na mag-inject ng mga utos, binabaha nila ang teksto ng pag-frame, mga signal ng awtoridad, o emosyonal na wika upang baluktutin kung paano nangangatuwiran ang isang agent. Ang malalaking language model (LLM) ay nagpapakita ng parehong anchoring at framing bias na nakaaapekto sa kognisyon ng tao, ibig sabihin, ang muling pagbabalangkas ng magkakaparehong katotohanan ay maaaring magbunga ng lubhang magkaibang output ng agent.
Mas lumalalim pa ang Cognitive State Traps sa pamamagitan ng paglalason sa mga retrieval database na ginagamit ng mga agent para sa memorya. Ipinapakita ng pananaliksik na binanggit sa papel na ang pag-inject ng mas mababa sa ilang piraso ng na-optimize na dokumento sa isang knowledge base ay maaaring mapagkakatiwalaang mag-redirect ng mga tugon ng agent para sa mga tinatarget na query, na may ilang success rate ng pag-atake na lumalampas sa 80% sa mas mababa sa 0.1% na kontaminasyon ng data.
Nilalaktawan ng Behavioural Control Traps ang pagiging pino at direktang tinatarget ang action layer ng isang agent. Kabilang dito ang mga naka-embed na jailbreak sequence na nag-o-override sa safety alignment kapag na-ingest, mga utos sa data exfiltration na nagre-redirect ng sensitibong impormasyon ng user sa mga endpoint na kontrolado ng attacker, at mga sub-agent spawning trap na pumipilit sa parent agent na mag-instansiya ng mga compromised na child agent.
Idinodokumento ng papel ang isang kaso na kinasasangkutan ng M365 Copilot ng Microsoft kung saan ang isang solong ginawang email ay nagdulot sa system na i-bypass ang mga internal classifier at i-leak ang buong privileged context nito sa isang endpoint na kontrolado ng attacker. Dinisenyo ang Systemic Traps upang biguin ang buong mga network ng agent nang sabay-sabay sa halip na mga indibidwal na system.
Kabilang dito ang mga congestion attack na nagsi-synchronize ng mga agent tungo sa nakakapagod na demand para sa limitadong mga mapagkukunan, mga interdependence cascade na hinulma sa 2010 stock market Flash Crash, at mga compositional fragment trap na ikinakalat ang isang malicious payload sa maraming mukhang benign na source na muling nabubuo bilang isang buong pag-atake lamang kapag pinagsama-sama.
“Ang paghasik sa kapaligiran ng mga input na idinisenyo upang mag-trigger ng mga kabiguang pang macro level sa pamamagitan ng magkakaugnay na pag-uugali ng mga agent,” paliwanag ng papel ng Google Deepmind, ay nagiging lalong mapanganib habang mas nagiging homogenous ang mga ecosystem ng AI model. Nahaharap ang sektor ng pananalapi at crypto sa direktang exposure dahil sa kung gaano kalalim naka-embed ang mga algorithmic agent sa imprastruktura ng trading.
Kinukumpleto ng Human-in-the-Loop Traps ang taxonomy sa pamamagitan ng pag-target sa mga human supervisor na nagbabantay sa mga agent sa halip na sa mismong mga agent. Ang isang compromised na agent ay maaaring lumikha ng mga output na ininhinyero upang magdulot ng approval fatigue, magpakita ng mga technically dense na buod na aaprubahan ng hindi eksperto nang walang masusing pagsusuri, o magpasok ng mga phishing link na mukhang lehitimong rekomendasyon. Inilalarawan ng mga mananaliksik ang kategoryang ito bilang kulang ang pag-aaral ngunit inaasahang lalago habang lumalawak ang mga hybrid na sistemang tao-AI.
Sinasabi ng mga Mananaliksik na ang Pagse-secure ng AI Agents ay Nangangailangan ng Higit Pa sa mga Teknikal na Ayos
Hindi tinatrato ng papel ang anim na kategoryang ito bilang hiwa-hiwalay. Maaaring i-chain ang mga indibidwal na trap, i-layer sa maraming pinagmulan, o idisenyo upang mag-activate lamang sa ilalim ng mga tiyak na kondisyon sa hinaharap. Bawat agent na sinubukan sa iba’t ibang red-teaming study na binanggit sa papel ay na-kompromiso nang hindi bababa sa isang beses, at sa ilang kaso ay nagsagawa ng mga ilegal o nakapipinsalang aksyon.
Ang CEO ng OpenAI na si Sam Altman at ang iba pa ay dati nang nagbabanggit ng mga panganib ng pagbibigay sa mga agent ng walang hadlang na access sa mga sensitibong system, ngunit nagbibigay ang papel na ito ng unang nakaayos na mapa kung paano eksaktong nagkakatotoo ang mga panganib na iyon sa praktika. Nanawagan ang mga mananaliksik ng Deepmind para sa isang koordinadong tugon na sumasaklaw sa tatlong larangan.
Sa panig na teknikal, inirerekomenda nila ang adversarial training sa panahon ng pag-develop ng modelo, mga runtime content scanner, mga pre-ingestion source filter, at mga output monitor na maaaring mag-suspinde ng isang agent sa kalagitnaan ng gawain kung matutukoy ang anomalous na pag-uugali. Sa antas ng ecosystem, itinutulak nila ang mga bagong web standard na magpapahintulot sa mga website na i-flag ang content na inilaan para sa AI consumption at mga reputation system na nag-iiskor ng pagiging mapagkakatiwalaan ng domain.

Pinaghihigpitan ng Anthropic ang Access sa Claude Agent sa gitna ng pagsabog ng AI Automation sa Crypto
Pinutol ng Anthropic ang access sa subscription ng Claude para sa Openclaw noong Abril 4, na nagtulak sa mga gumagamit ng crypto AI agent na lumipat sa pay-as-you-go na pagsingil. read more.
Basahin ngayon
Pinaghihigpitan ng Anthropic ang Access sa Claude Agent sa gitna ng pagsabog ng AI Automation sa Crypto
Pinutol ng Anthropic ang access sa subscription ng Claude para sa Openclaw noong Abril 4, na nagtulak sa mga gumagamit ng crypto AI agent na lumipat sa pay-as-you-go na pagsingil. read more.
Basahin ngayon
Pinaghihigpitan ng Anthropic ang Access sa Claude Agent sa gitna ng pagsabog ng AI Automation sa Crypto
Basahin ngayonPinutol ng Anthropic ang access sa subscription ng Claude para sa Openclaw noong Abril 4, na nagtulak sa mga gumagamit ng crypto AI agent na lumipat sa pay-as-you-go na pagsingil. read more.
Sa panig na legal, tinutukoy nila ang isang accountability gap: kapag ang isang na-hijack na agent ay gumawa ng krimeng pinansyal, walang malinaw na sagot ang kasalukuyang mga balangkas kung ang pananagutan ay napupunta sa operator ng agent, sa provider ng modelo, o sa may-ari ng domain. Inilatag ng mga mananaliksik ang hamon nang may sinadyang bigat:
“Ang web ay itinayo para sa mga mata ng tao; ngayon ay muling itinatayo ito para sa mga mambabasang makina.”
Habang bumibilis ang pag-aampon ng mga agent, lumilipat ang tanong mula sa kung anong impormasyon ang umiiral online tungo sa kung ano ang ipapaniwala tungkol dito sa mga AI system. Kung makakapag-ugnayan nang sapat kabilis ang mga policymaker, mga developer, at mga security researcher upang masagot ang tanong na iyon bago dumating ang mga real-world exploit sa malawakang saklaw, iyon ang nananatiling bukas na salik.














