Google Deepmindi teadlased on avaldanud esimese süstemaatilise raamistiku, milles kirjeldatakse, kuidas pahatahtlik veebisisu võib autonoomseid tehisintellekti agente manipuleerida, üle võtta ja nende enda kasutajate vastu relvana kasutada.
Deepmindi artikkel „AI Agent Traps” kirjeldab, kuidas häkkerid võivad kasutada tehisintellekti agente kasutajate vastu

Peamised järeldused:
- ">Google Deepmindi teadlased tuvastasid 6 tehisintellekti agentide lõksu kategooriat, mille sisu sisestamise edukus ulatus 86%ni.
- ">Microsoft M365 Copilotit sihtivad käitumiskontrolli lõksud saavutasid dokumenteeritud testides 10/10 andmete väljavoolu.
- Deepmind nõuab vastandlikku koolitust, käitamisaja sisu skannereid ja uusi veebistandardeid, et tagada agentide turvalisus 2026. aastaks.
Deepmindi artikkel: AI-agenteid saab kaaperdada mürgitatud mälu ja nähtamatute HTML-käskude abil
Artikkel pealkirjaga „AI Agent Traps” on kirjutanud Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ja Simon Osindero, kes kõik on seotud Google Deepmindiga, ning see avaldati SSRN-is 2026. aasta märtsi lõpus. See ilmub ajal, mil ettevõtted võistlevad veebi sirvimise, e-kirjade lugemise, tehingute sooritamise ja allagentide loomise võimeliste AI-agentide kasutuselevõtmisel ilma otsese inimjärelevalveta.
Teadlased väidavad, et need võimed on ka risk. „Muutes pigem keskkonda kui mudelit,“ märgitakse artiklis, „muudab lõks agentide enda võimed nende vastu suunatud relvaks.“
Artiklis esitatud raamistik eristab kokku kuut rünnakukategooriat, mis on järjestatud vastavalt sellele, millist agentide tegevuse osa nad sihtivad. Sisu sisestamise lõksud kasutavad ära lõhet selle vahel, mida inimene veebilehel näeb, ja selle vahel, mida AI-agent analüüsib aluseks olevas HTML-is, CSS-is ja metaandmetes.
HTML-kommentaaridesse, juurdepääsutagidesse või stiiliga nähtamatuks muudetud teksti peidetud juhised ei ilmu kunagi inimestele, kuid registreeritakse agentide jaoks õiguspäraste käskudena. WASP-i võrdlusuuring näitas, et veebisisusse peidetud lihtsad, inimese kirjutatud käskude sisestamised kaaperdavad agente osaliselt kuni 86% testitud stsenaariumitest.
Semantilised manipuleerimislõksud toimivad teisiti. Selle asemel, et sisestada käske, täidavad nad teksti raamimise, autoriteetsuse signaalide või emotsionaalselt laetud keelega, et moonutada agendi mõtlemist. Suured keelemudelid (LLM-id) ilmutavad samu kinnistumis- ja raamimise eelarvamusi, mis mõjutavad inimkognitsiooni, mis tähendab, et identseid fakte ümbersõnastades võib saada agendilt dramaatiliselt erinevaid väljundeid.
Kognitiivse seisundi lõksud lähevad veelgi kaugemale, mürgitades andmebaase, mida agendid mälu jaoks kasutavad. Artiklis tsiteeritud uuringud näitavad, et vaid mõne optimeeritud dokumendi sisestamine teadmistebaasi võib usaldusväärselt suunata agendi vastuseid sihtküsimustele, kusjuures mõnede rünnakute edukus ületab 80% vähem kui 0,1% andmete saastumise juures.
Käitumiskontrolli lõksud jätavad peenused kõrvale ja suunavad oma rünnaku otse agendi tegevuskihile. Nende hulka kuuluvad sisseehitatud jailbreak-järjestused, mis pärast sisseviimist tühistavad turvalisuse joondamise, andmete väljavoolu käsud, mis suunavad tundlikku kasutajateavet ründaja kontrollitavatesse lõpppunktidesse, ning allagendi loomise lõksud, mis sunnivad vanemagenti looma ohustatud allagente.
Artikkel dokumenteerib juhtumit, mis hõlmab Microsofti M365 Copilotit, kus üksainus spetsiaalselt koostatud e-kiri põhjustas süsteemi sisemiste klassifikaatorite mööda hiilimise ja selle täieliku privilegeeritud konteksti lekitamise ründaja kontrollitavasse lõpppunkti. Süsteemsed lõksud on kavandatud rikkuma kogu agentide võrgustikku korraga, mitte üksikuid süsteeme.
Nende hulka kuuluvad ülekoormusrünnakud, mis sünkroniseerivad agendid piiratud ressursside ammendavaks nõudmiseks, 2010. aasta aktsiaturu „Flash Crash” eeskujul modelleeritud vastastikuse sõltuvuse kaskaadid ning kompositsioonilised fragmentlõksud, mis hajutavad pahatahtliku koormuse mitme heasoovliku välimusega allika vahel, mis moodustavad täieliku rünnaku alles kokku liidetuna.
„Keskkonna külvamine sisenditega, mis on mõeldud makrotasandi rikkeid esile kutsuma agendite korrelatsioonilise käitumise kaudu,” selgitab Google Deepmindi artikkel, muutub üha ohtlikumaks, kuna AI-mudelite ökosüsteemid muutuvad üha homogeensemaks. Finants- ja krüptosektorid on otseselt ohustatud, arvestades seda, kui sügavalt on algoritmilised agendid kaubanduse infrastruktuuri integreeritud.
Human-in-the-Loop-lõksud täiendavad taksonoomiat, suunates oma rünnakud pigem agenteid jälgivatele inimjärelevalvajatele kui agentidele endile. Kompromiteeritud agent võib genereerida väljundeid, mis on loodud heakskiitmise väsimuse esilekutsumiseks, esitada tehniliselt tihedaid kokkuvõtteid, mida mitteekspert kinnitaks ilma lähemalt uurimata, või lisada phishing-linke, mis näevad välja nagu õiged soovitused. Teadlased kirjeldavad seda kategooriat kui vähe uuritud, kuid eeldatavasti kasvavat, kuna hübriidsed inimese-AI süsteemid laienevad.
Teadlased väidavad, et AI-agentide turvalisuse tagamine nõuab enamat kui tehnilisi parandusi
Artiklis ei käsitleta neid kuut kategooriat eraldiseisvana. Üksikuid lõkse saab ahelatada, mitmele allikale kihistada või kavandada nii, et need aktiveeruvad ainult teatud tulevastes tingimustes. Iga agent, keda testiti artiklis tsiteeritud erinevates red-teaming-uuringutes, kompromiteeriti vähemalt korra, mõnel juhul sooritades ebaseaduslikke või kahjulikke tegusid.
OpenAI tegevjuht Sam Altman ja teised on varem juhtinud tähelepanu riskidele, mis kaasnevad agentidele kontrollimatu juurdepääsu andmisega tundlikele süsteemidele, kuid käesolev artikkel pakub esimest struktureeritud ülevaadet sellest, kuidas need riskid praktikas täpselt realiseeruvad. Deepmindi teadlased kutsuvad üles koordineeritud reageerimisele kolmes valdkonnas.
Tehnilisel tasandil soovitavad nad mudeli arendamise ajal vastandlikku koolitust, käitamisaja sisu skannereid, sisestamiseelsed allikafiltreid ja väljundmonitore, mis suudavad agendi ülesande keskel peatada, kui avastatakse ebanormaalset käitumist. Ökosüsteemi tasandil pooldavad nad uusi veebistandardeid, mis võimaldaksid veebisaitidel märgistada AI-le mõeldud sisu, ning maine süsteeme, mis hindavad domeeni usaldusväärsust.

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal
Anthropic lõpetas 4. aprillil Openclaw'le pakutava Claude'i tellimusjuurdepääsu, sundides krüptovaluuta-põhise tehisintellekti agendi kasutajaid üle minema kasutuspõhisele arveldamisele. read more.
Loe nüüd
Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal
Anthropic lõpetas 4. aprillil Openclaw'le pakutava Claude'i tellimusjuurdepääsu, sundides krüptovaluuta-põhise tehisintellekti agendi kasutajaid üle minema kasutuspõhisele arveldamisele. read more.
Loe nüüd
Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal
Loe nüüdAnthropic lõpetas 4. aprillil Openclaw'le pakutava Claude'i tellimusjuurdepääsu, sundides krüptovaluuta-põhise tehisintellekti agendi kasutajaid üle minema kasutuspõhisele arveldamisele. read more.
Õiguslikul tasandil tuvastavad nad vastutuse lünga: kui kaaperdatud agent paneb toime finantskuriteo, ei paku praegused raamistikud selget vastust küsimusele, kas vastutus lasub agendi operaatoril, mudeli pakkujal või domeeni omanikul. Teadlased rõhutavad väljakutse tähtsust järgmiselt:
„Veeb loodi inimeste silmadele; nüüd ehitatakse see ümber masinlugejatele.“
Agendite kasutuselevõtu kiirenemisel nihkub küsimus sellest, milline teave on veebis olemas, sellele, mida tehisintellekti süsteemidele selle kohta usutakse. Kas poliitikakujundajad, arendajad ja turvalisuse uurijad suudavad piisavalt kiiresti koordineerida, et sellele küsimusele vastata enne, kui reaalses maailmas hakkavad laiaulatuslikult esinema kuritarvitused, jääb lahtiseks.














