NewsAvaldatud:5. apr 2026, 23:45

Deepmindi artikkel „AI Agent Traps” kirjeldab, kuidas häkkerid võivad kasutada tehisintellekti agente kasutajate vastu

Google Deepmindi teadlased on avaldanud esimese süstemaatilise raamistiku, milles kirjeldatakse, kuidas pahatahtlik veebisisu võib autonoomseid tehisintellekti agente manipuleerida, üle võtta ja nende enda kasutajate vastu relvana kasutada.

KIRJUTAS

Jamie Redman

JAGA

Avaldatud: 5. apr 2026, 23:45

Deepmindi artikkel „AI Agent Traps” kirjeldab, kuidas häkkerid võivad kasutada tehisintellekti agente kasutajate vastu

Peamised järeldused:

">Google Deepmindi teadlased tuvastasid 6 tehisintellekti agentide lõksu kategooriat, mille sisu sisestamise edukus ulatus 86%ni.
">Microsoft M365 Copilotit sihtivad käitumiskontrolli lõksud saavutasid dokumenteeritud testides 10/10 andmete väljavoolu.
Deepmind nõuab vastandlikku koolitust, käitamisaja sisu skannereid ja uusi veebistandardeid, et tagada agentide turvalisus 2026. aastaks.

Deepmindi artikkel: AI-agenteid saab kaaperdada mürgitatud mälu ja nähtamatute HTML-käskude abil

Artikkel pealkirjaga „AI Agent Traps” on kirjutanud Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ja Simon Osindero, kes kõik on seotud Google Deepmindiga, ning see avaldati SSRN-is 2026. aasta märtsi lõpus. See ilmub ajal, mil ettevõtted võistlevad veebi sirvimise, e-kirjade lugemise, tehingute sooritamise ja allagentide loomise võimeliste AI-agentide kasutuselevõtmisel ilma otsese inimjärelevalveta.

Teadlased väidavad, et need võimed on ka risk. „Muutes pigem keskkonda kui mudelit,“ märgitakse artiklis, „muudab lõks agentide enda võimed nende vastu suunatud relvaks.“

Artiklis esitatud raamistik eristab kokku kuut rünnakukategooriat, mis on järjestatud vastavalt sellele, millist agentide tegevuse osa nad sihtivad. Sisu sisestamise lõksud kasutavad ära lõhet selle vahel, mida inimene veebilehel näeb, ja selle vahel, mida AI-agent analüüsib aluseks olevas HTML-is, CSS-is ja metaandmetes.
HTML-kommentaaridesse, juurdepääsutagidesse või stiiliga nähtamatuks muudetud teksti peidetud juhised ei ilmu kunagi inimestele, kuid registreeritakse agentide jaoks õiguspäraste käskudena. WASP-i võrdlusuuring näitas, et veebisisusse peidetud lihtsad, inimese kirjutatud käskude sisestamised kaaperdavad agente osaliselt kuni 86% testitud stsenaariumitest.

Semantilised manipuleerimislõksud toimivad teisiti. Selle asemel, et sisestada käske, täidavad nad teksti raamimise, autoriteetsuse signaalide või emotsionaalselt laetud keelega, et moonutada agendi mõtlemist. Suured keelemudelid (LLM-id) ilmutavad samu kinnistumis- ja raamimise eelarvamusi, mis mõjutavad inimkognitsiooni, mis tähendab, et identseid fakte ümbersõnastades võib saada agendilt dramaatiliselt erinevaid väljundeid.

Kognitiivse seisundi lõksud lähevad veelgi kaugemale, mürgitades andmebaase, mida agendid mälu jaoks kasutavad. Artiklis tsiteeritud uuringud näitavad, et vaid mõne optimeeritud dokumendi sisestamine teadmistebaasi võib usaldusväärselt suunata agendi vastuseid sihtküsimustele, kusjuures mõnede rünnakute edukus ületab 80% vähem kui 0,1% andmete saastumise juures.

Käitumiskontrolli lõksud jätavad peenused kõrvale ja suunavad oma rünnaku otse agendi tegevuskihile. Nende hulka kuuluvad sisseehitatud jailbreak-järjestused, mis pärast sisseviimist tühistavad turvalisuse joondamise, andmete väljavoolu käsud, mis suunavad tundlikku kasutajateavet ründaja kontrollitavatesse lõpppunktidesse, ning allagendi loomise lõksud, mis sunnivad vanemagenti looma ohustatud allagente.

Artikkel dokumenteerib juhtumit, mis hõlmab Microsofti M365 Copilotit, kus üksainus spetsiaalselt koostatud e-kiri põhjustas süsteemi sisemiste klassifikaatorite mööda hiilimise ja selle täieliku privilegeeritud konteksti lekitamise ründaja kontrollitavasse lõpppunkti. Süsteemsed lõksud on kavandatud rikkuma kogu agentide võrgustikku korraga, mitte üksikuid süsteeme.

Nende hulka kuuluvad ülekoormusrünnakud, mis sünkroniseerivad agendid piiratud ressursside ammendavaks nõudmiseks, 2010. aasta aktsiaturu „Flash Crash” eeskujul modelleeritud vastastikuse sõltuvuse kaskaadid ning kompositsioonilised fragmentlõksud, mis hajutavad pahatahtliku koormuse mitme heasoovliku välimusega allika vahel, mis moodustavad täieliku rünnaku alles kokku liidetuna.

„Keskkonna külvamine sisenditega, mis on mõeldud makrotasandi rikkeid esile kutsuma agendite korrelatsioonilise käitumise kaudu,” selgitab Google Deepmindi artikkel, muutub üha ohtlikumaks, kuna AI-mudelite ökosüsteemid muutuvad üha homogeensemaks. Finants- ja krüptosektorid on otseselt ohustatud, arvestades seda, kui sügavalt on algoritmilised agendid kaubanduse infrastruktuuri integreeritud.

Human-in-the-Loop-lõksud täiendavad taksonoomiat, suunates oma rünnakud pigem agenteid jälgivatele inimjärelevalvajatele kui agentidele endile. Kompromiteeritud agent võib genereerida väljundeid, mis on loodud heakskiitmise väsimuse esilekutsumiseks, esitada tehniliselt tihedaid kokkuvõtteid, mida mitteekspert kinnitaks ilma lähemalt uurimata, või lisada phishing-linke, mis näevad välja nagu õiged soovitused. Teadlased kirjeldavad seda kategooriat kui vähe uuritud, kuid eeldatavasti kasvavat, kuna hübriidsed inimese-AI süsteemid laienevad.

Teadlased väidavad, et AI-agentide turvalisuse tagamine nõuab enamat kui tehnilisi parandusi

Artiklis ei käsitleta neid kuut kategooriat eraldiseisvana. Üksikuid lõkse saab ahelatada, mitmele allikale kihistada või kavandada nii, et need aktiveeruvad ainult teatud tulevastes tingimustes. Iga agent, keda testiti artiklis tsiteeritud erinevates red-teaming-uuringutes, kompromiteeriti vähemalt korra, mõnel juhul sooritades ebaseaduslikke või kahjulikke tegusid.

OpenAI tegevjuht Sam Altman ja teised on varem juhtinud tähelepanu riskidele, mis kaasnevad agentidele kontrollimatu juurdepääsu andmisega tundlikele süsteemidele, kuid käesolev artikkel pakub esimest struktureeritud ülevaadet sellest, kuidas need riskid praktikas täpselt realiseeruvad. Deepmindi teadlased kutsuvad üles koordineeritud reageerimisele kolmes valdkonnas.

Tehnilisel tasandil soovitavad nad mudeli arendamise ajal vastandlikku koolitust, käitamisaja sisu skannereid, sisestamiseelsed allikafiltreid ja väljundmonitore, mis suudavad agendi ülesande keskel peatada, kui avastatakse ebanormaalset käitumist. Ökosüsteemi tasandil pooldavad nad uusi veebistandardeid, mis võimaldaksid veebisaitidel märgistada AI-le mõeldud sisu, ning maine süsteeme, mis hindavad domeeni usaldusväärsust.

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Anthropic lõpetas 4. aprillil Openclaw'le pakutava Claude'i tellimusjuurdepääsu, sundides krüptovaluuta-põhise tehisintellekti agendi kasutajaid üle minema kasutuspõhisele arveldamisele. read more.

Loe nüüd

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Loe nüüd

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Loe nüüd

Õiguslikul tasandil tuvastavad nad vastutuse lünga: kui kaaperdatud agent paneb toime finantskuriteo, ei paku praegused raamistikud selget vastust küsimusele, kas vastutus lasub agendi operaatoril, mudeli pakkujal või domeeni omanikul. Teadlased rõhutavad väljakutse tähtsust järgmiselt:

„Veeb loodi inimeste silmadele; nüüd ehitatakse see ümber masinlugejatele.“

Agendite kasutuselevõtu kiirenemisel nihkub küsimus sellest, milline teave on veebis olemas, sellele, mida tehisintellekti süsteemidele selle kohta usutakse. Kas poliitikakujundajad, arendajad ja turvalisuse uurijad suudavad piisavalt kiiresti koordineerida, et sellele küsimusele vastata enne, kui reaalses maailmas hakkavad laiaulatuslikult esinema kuritarvitused, jääb lahtiseks.

Sildid selles loos

Artificial intelligence (AI)cybersecurity Google Security

Bitcoin mänguvalikud

Betpanda

Ülevaade Hangi Boonus

100% boonus kuni 1 BTC + 10% iganädalane panusevaba cashback

Cryptorino

Ülevaade Hangi Boonus

100% Boonus Kuni 1 BTC + 10% Iganädalane Cashback

Playbet.io

Ülevaade Hangi Boonus

130% kuni 2 500 USDT + 200 tasuta keerutust + 20% iganädalane panusevaba cashback

Parimatch

Ülevaade Hangi Boonus

1000% tervitusboonus + tasuta panus kuni 1 BTC

Cloudbet

Ülevaade Hangi Boonus

Kuni 2 500 USDT + 150 tasuta keerutust + kuni 30% rakeback

BC.Game

Ülevaade Hangi Boonus

470% boonus kuni $500 000 + 400 tasuta keerutust + 20% rakeback

Stake

Ülevaade Hangi Boonus

3,5% rakeback igal panusel + iganädalased loosimised

Vave

Ülevaade Hangi Boonus

425% kuni 5 BTC + 100 tasuta keerutust

Punkz

Ülevaade Hangi Boonus

100% kuni $20K + igapäevane rakeback

Deepmindi artikkel „AI Agent Traps” kirjeldab, kuidas häkkerid võivad kasutada tehisintellekti agente kasutajate vastu

Deepmindi artikkel: AI-agenteid saab kaaperdada mürgitatud mälu ja nähtamatute HTML-käskude abil

Teadlased väidavad, et AI-agentide turvalisuse tagamine nõuab enamat kui tehnilisi parandusi

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Anthropic piirab Claude'i agendi juurdepääsu krüptovaluuta valdkonna tehisintellekti automatiseerimise buumi taustal

Sildid selles loos

Bitcoin mänguvalikud

Parimad krüptobörsid

Parimad Bitcoini börsid

Parimad P2P-börsid

Vaata kõiki börsiarvustusi...

Börsid

Rahakotid

Hasartmängud

ViaBTC tutvustab tagatisega laenulahendusi, mis aitavad toime tulla erinevate turutingimustega

MEXC integreerib USD1 oma terviklikku infrastruktuuri ülemaailmsete kasutajate jaoks

Safe käivitab Safenet Beta, mis annab SAFE-tokenite omanikele rolli võrgu turvalisuse tagamisel

Digital Sovereignty Alliance’i esindaja Adrian Wall räägib tokeniseerimisest 2026. aasta Penni plokiahela konverentsil

Bitget toob krüptovaluuta igapäevaste kulutuste juurde, tuues Aasia-Vaikse ookeani piirkonnas turule Bitget-kaardi

Latam Insights: Global Pix ja Mercado Libre lõpetavad tokeni