NewsJulkaistu:5.4.2026 klo 23.45

Deepmindin tutkimusartikkeli ”AI Agent Traps” kuvaa, miten hakkerit voisivat käyttää tekoälyagentteja käyttäjiä vastaan

Google Deepmindin tutkijat ovat julkaisseet ensimmäisen järjestelmällisen viitekehyksen, jossa kuvataan, kuinka haitallinen verkkosisältö voi manipuloida, kaapata ja käyttää autonomisia tekoälyagentteja aseena niiden omia käyttäjiä vastaan.

KIRJOITTAJA

Jamie Redman

JAA

Julkaistu: 5.4.2026 klo 23.45

Deepmindin tutkimusartikkeli ”AI Agent Traps” kuvaa, miten hakkerit voisivat käyttää tekoälyagentteja käyttäjiä vastaan

Tärkeimmät havainnot:

">Google Deepmindin tutkijat tunnistivat kuusi tekoälyagenttien ansaluokkaa, joiden sisällön syöttämisen onnistumisprosentti oli jopa 86 %.
">Microsoft M365 Copilotia kohdentavat käyttäytymisen hallinnan ansat saavuttivat dokumentoiduissa testeissä 10/10 tietojen vuototuloksen.
Deepmind kehottaa ottamaan käyttöön vastakkainasettelukoulutuksen, ajonaikaiset sisältöskannerit ja uudet verkkostandardit agenttien suojaamiseksi vuoteen 2026 mennessä.

Deepmindin artikkeli: Tekoälyagentit voidaan kaapata myrkytetyn muistin ja näkymättömien HTML-komentojen avulla

Artikkelin, jonka otsikko on "AI Agent Traps", ovat kirjoittaneet Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ja Simon Osindero, jotka kaikki ovat Google Deepmindin palveluksessa, ja se julkaistiin SSRN:ssä maaliskuun lopulla 2026. Artikkeli ilmestyy samaan aikaan, kun yritykset kilpailevat keskenään ottaakseen käyttöön tekoälyagentteja, jotka pystyvät selaamaan verkkoa, lukemaan sähköposteja, suorittamaan transaktioita ja luomaan alagentteja ilman suoraa ihmisvalvontaa.

Tutkijat väittävät, että nämä kyvyt ovat myös riski. "Muuttamalla ympäristöä mallin sijaan", artikkelissa todetaan, "ansa kääntää agentin omat kyvyt sitä vastaan."

Artikkelin viitekehys tunnistaa yhteensä kuusi hyökkäysluokkaa, jotka on järjestetty sen mukaan, mihin agentin toiminnan osaan ne kohdistuvat. Sisällön syöttöansat hyödyntävät kuilua sen välillä, mitä ihminen näkee verkkosivulla, ja sen välillä, mitä tekoälyagentti tulkitsee taustalla olevasta HTML-koodista, CSS:stä ja metatiedoista.
HTML-kommenteihin, esteettömyystunnisteisiin tai tyylillä näkymättömäksi tehdyn tekstin piilotetut ohjeet eivät näy ihmistarkastajille, mutta rekisteröityvät agenteille laillisina komentoina. WASP-vertailutestissä havaittiin, että verkkosisältöön upotetut yksinkertaiset, ihmisen kirjoittamat komentojen syöttöansat kaappaavat agentit osittain jopa 86 prosentissa testatuista skenaarioista.

Semanttiset manipulointiansat toimivat eri tavalla. Komentojen injektoinnin sijaan ne kyllästävät tekstin kehystämisellä, auktoriteettisignaaleilla tai tunnepitoisella kielellä vääristääkseen agentin päättelyä. Suuret kielimallit (LLM) osoittavat samoja ankkurointi- ja kehystämisvääristymiä, jotka vaikuttavat ihmisen kognitioon, mikä tarkoittaa, että identtisten tosiseikkojen uudelleenmuotoilu voi tuottaa dramaattisesti erilaisia agentin tuloksia.

Kognitiiviset tilansansat menevät pidemmälle myrkyttämällä hakutietokantoja, joita agentit käyttävät muistinaan. Artikkelissa mainittu tutkimus osoittaa, että alle kourallisen optimoitujen dokumenttien lisääminen tietokantaan voi luotettavasti ohjata agentin vastauksia kohdennettuihin kyselyihin, ja joidenkin hyökkäysten onnistumisprosentti ylittää 80 % alle 0,1 %:n tietojen saastumisella.

Behavioural Control Traps -ansat ohittavat hienovaraisuuden ja kohdistuvat suoraan agentin toimintatasoon. Näihin kuuluvat upotetut jailbreak-sekvenssit, jotka ohittavat turvallisuusasetukset heti syötettyään, tietojen vuotokomennot, jotka ohjaavat arkaluontoisia käyttäjätietoja hyökkääjän hallitsemiin päätepisteisiin, sekä alagenttien luomiseen liittyvät ansat, jotka pakottavat vanhemman agentin luomaan vaarantuneita alagentteja.

Artikkelissa dokumentoidaan tapaus, jossa Microsoftin M365 Copilot -palvelu joutui yhden huolellisesti muotoillun sähköpostin vuoksi ohittamaan sisäiset luokittelijat ja vuotamaan koko etuoikeutetun kontekstinsa hyökkääjän hallitsemaan päätelaitteeseen. Systeemiset ansat on suunniteltu kaatamaan kokonaisia agenttiverkostoja samanaikaisesti yksittäisten järjestelmien sijaan.

Näihin kuuluvat ruuhkautumisiskut, jotka synkronoivat agentit tyhjentävään kysyntään rajallisista resursseista, vuoden 2010 pörssin Flash Crash -romahdusta mallintavat riippuvuuskaskadit sekä kompositiiviset fragmenttiankat, jotka hajottavat haitallisen hyötykuorman useisiin harmittomalta näyttäviin lähteisiin, jotka muodostavat täyden hyökkäyksen vasta yhdistettynä.

"Ympäristön siementäminen syötteillä, jotka on suunniteltu laukaisemaan makrotason vikoja agenttien korreloituneen käyttäytymisen kautta", selitetään Google Deepmindin artikkelissa, muuttuu yhä vaarallisemmaksi, kun tekoälymallien ekosysteemit muuttuvat yhä homogeenisemmiksi. Rahoitus- ja kryptosektorit ovat suoraan alttiina, kun otetaan huomioon, kuinka syvälle algoritmiset agentit on upotettu kaupankäynnin infrastruktuuriin.

Human-in-the-Loop-ansat täydentävät luokittelua kohdistamalla hyökkäyksensä agentteja valvoviin ihmisiin agenttien sijaan. Kompromitoitu agentti voi tuottaa tulosteita, jotka on suunniteltu aiheuttamaan hyväksymisväsymystä, esittää teknisesti tiiviitä yhteenvetoja, jotka ei-asiantuntija hyväksyisi tarkistamatta, tai lisätä phishing-linkkejä, jotka näyttävät laillisilta suosituksilta. Tutkijat kuvailevat tätä luokkaa alitutkituksi, mutta sen odotetaan kasvavan hybridisten ihmis-AI-järjestelmien laajentuessa.

Tutkijoiden mukaan tekoälyagenttien turvaaminen vaatii muutakin kuin teknisiä korjauksia

Artikkelissa näitä kuutta luokkaa ei käsitellä erillisinä. Yksittäiset ansat voidaan ketjuttaa, kerrostuttaa useiden lähteiden yli tai suunnitella aktivoitumaan vain tietyissä tulevissa olosuhteissa. Jokainen artikkelissa mainituissa erilaisissa red team -tutkimuksissa testattu agentti vaarantui vähintään kerran, ja joissakin tapauksissa se suoritti laittomia tai haitallisia toimia.

OpenAI:n toimitusjohtaja Sam Altman ja muut ovat aiemmin varoittaneet riskeistä, joita aiheutuu agenttien rajoittamattomasta pääsystä arkaluontoisiin järjestelmiin, mutta tämä artikkeli tarjoaa ensimmäisen jäsennellyn kuvan siitä, miten nämä riskit konkretisoituvat käytännössä. Deepmindin tutkijat vaativat koordinoitua vastausta, joka kattaa kolme aluetta.

Teknisellä puolella he suosittelevat vastakkainasettelua mallin kehittämisen aikana, ajonaikaisia sisältöskanneja, syöttöä edeltäviä lähdesuodattimia sekä tulosteiden valvojia, jotka voivat keskeyttää agentin kesken tehtävän, jos havaitaan poikkeavaa käyttäytymistä. Ekosysteemitasolla he kannattavat uusia verkkostandardeja, jotka mahdollistaisivat verkkosivustojen merkitsemään tekoälylle tarkoitetun sisällön, sekä mainejärjestelmiä, jotka pisteyttävät verkkotunnuksen luotettavuuden.

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Anthropic lopetti 4. huhtikuuta Claude-tilauspalvelun käytön Openclaw-alustalla, minkä seurauksena kryptovaluutta-AI-agenttien käyttäjät joutuivat siirtymään kertamaksuperusteiseen laskutukseen. read more.

Lue nyt

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Lue nyt

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Lue nyt

Oikeudellisella puolella he tunnistavat vastuukysymyksessä aukon: kun kaapattu agentti syyllistyy talousrikokseen, nykyiset säännöstöt eivät tarjoa selkeää vastausta siihen, kuuluuko vastuu agentin operaattorille, mallin tarjoajalle vai verkkotunnuksen omistajalle. Tutkijat painottavat haasteen merkitystä tarkoituksellisesti:

"Verkko on rakennettu ihmisten silmille; nyt sitä rakennetaan uudelleen koneille."

Agenttien käyttöönoton kiihtyessä kysymys siirtyy siitä, mitä tietoa verkossa on, siihen, mitä tekoälyjärjestelmät saadaan uskomaan siitä. Onko poliittiset päättäjät, kehittäjät ja tietoturvatutkijat pystyvät koordinoimaan toimiaan riittävän nopeasti vastatakseen tähän kysymykseen ennen kuin todelliset hyökkäykset yleistyvät, on edelleen avoin kysymys.

Tunnisteet tässä tarinassa

Artificial intelligence (AI)cybersecurity Google Security

Bitcoin pelivalinnat

Betpanda

Arvostelu Hanki Bonus

100% Bonus 1 BTC:hen asti + 10% Viikoittainen Panostukseton Cashback

Cryptorino

Arvostelu Hanki Bonus

100% Bonus 1 BTC:hen Asti + 10% Viikoittainen Cashback

Playbet.io

Arvostelu Hanki Bonus

130% 2 500 USDT:hen asti + 200 Ilmaiskierrosta + 20% Viikoittainen Panostukseton Cashback

Parimatch

Arvostelu Hanki Bonus

1000% Tervetuliaisbonukset + Ilmainen Veto 1 BTC:hen asti

Cloudbet

Arvostelu Hanki Bonus

2 500 USDT:hen asti + 150 Ilmaiskierrosta + 30%:iin asti Rakeback

BC.Game

Arvostelu Hanki Bonus

470% Bonus $500 000:een asti + 400 Ilmaiskierrosta + 20% Rakeback

Stake

Arvostelu Hanki Bonus

3,5% Rakeback Jokaisesta Vedosta + Viikoittaiset Arvonnat

Vave

Arvostelu Hanki Bonus

425% 5 BTC:hen asti + 100 Ilmaiskierrosta

Punkz

Arvostelu Hanki Bonus

100% $20K:hon asti + Päivittäinen Rakeback

Deepmindin tutkimusartikkeli ”AI Agent Traps” kuvaa, miten hakkerit voisivat käyttää tekoälyagentteja käyttäjiä vastaan

Deepmindin artikkeli: Tekoälyagentit voidaan kaapata myrkytetyn muistin ja näkymättömien HTML-komentojen avulla

Tutkijoiden mukaan tekoälyagenttien turvaaminen vaatii muutakin kuin teknisiä korjauksia

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä

Tunnisteet tässä tarinassa

Bitcoin pelivalinnat

Parhaat kryptopörssit

Parhaat Bitcoin-pörssit

Parhaat P2P-pörssit

Näytä kaikki pörssiarvostelut...

Pörssit

Lompakot

Uhkapelaaminen

ViaBTC esittelee vakuudellisia lainaratkaisuja vaihtelevien markkinaolosuhteiden hallitsemiseksi

MEXC integroi USD1:n kattavaan infrastruktuuriinsa maailmanlaajuisille käyttäjille

Safe lanseeraa Safenet-betaversion, joka antaa SAFE-tokenien haltijoille roolin verkon tietoturvassa

Latam Insights: Global Pix ja Mercado Libre lopettavat kryptovaluutan