Google Deepmindin tutkijat ovat julkaisseet ensimmäisen järjestelmällisen viitekehyksen, jossa kuvataan, kuinka haitallinen verkkosisältö voi manipuloida, kaapata ja käyttää autonomisia tekoälyagentteja aseena niiden omia käyttäjiä vastaan.
Deepmindin tutkimusartikkeli ”AI Agent Traps” kuvaa, miten hakkerit voisivat käyttää tekoälyagentteja käyttäjiä vastaan

Tärkeimmät havainnot:
- ">Google Deepmindin tutkijat tunnistivat kuusi tekoälyagenttien ansaluokkaa, joiden sisällön syöttämisen onnistumisprosentti oli jopa 86 %.
- ">Microsoft M365 Copilotia kohdentavat käyttäytymisen hallinnan ansat saavuttivat dokumentoiduissa testeissä 10/10 tietojen vuototuloksen.
- Deepmind kehottaa ottamaan käyttöön vastakkainasettelukoulutuksen, ajonaikaiset sisältöskannerit ja uudet verkkostandardit agenttien suojaamiseksi vuoteen 2026 mennessä.
Deepmindin artikkeli: Tekoälyagentit voidaan kaapata myrkytetyn muistin ja näkymättömien HTML-komentojen avulla
Artikkelin, jonka otsikko on "AI Agent Traps", ovat kirjoittaneet Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo ja Simon Osindero, jotka kaikki ovat Google Deepmindin palveluksessa, ja se julkaistiin SSRN:ssä maaliskuun lopulla 2026. Artikkeli ilmestyy samaan aikaan, kun yritykset kilpailevat keskenään ottaakseen käyttöön tekoälyagentteja, jotka pystyvät selaamaan verkkoa, lukemaan sähköposteja, suorittamaan transaktioita ja luomaan alagentteja ilman suoraa ihmisvalvontaa.
Tutkijat väittävät, että nämä kyvyt ovat myös riski. "Muuttamalla ympäristöä mallin sijaan", artikkelissa todetaan, "ansa kääntää agentin omat kyvyt sitä vastaan."
Artikkelin viitekehys tunnistaa yhteensä kuusi hyökkäysluokkaa, jotka on järjestetty sen mukaan, mihin agentin toiminnan osaan ne kohdistuvat. Sisällön syöttöansat hyödyntävät kuilua sen välillä, mitä ihminen näkee verkkosivulla, ja sen välillä, mitä tekoälyagentti tulkitsee taustalla olevasta HTML-koodista, CSS:stä ja metatiedoista.
HTML-kommenteihin, esteettömyystunnisteisiin tai tyylillä näkymättömäksi tehdyn tekstin piilotetut ohjeet eivät näy ihmistarkastajille, mutta rekisteröityvät agenteille laillisina komentoina. WASP-vertailutestissä havaittiin, että verkkosisältöön upotetut yksinkertaiset, ihmisen kirjoittamat komentojen syöttöansat kaappaavat agentit osittain jopa 86 prosentissa testatuista skenaarioista.
Semanttiset manipulointiansat toimivat eri tavalla. Komentojen injektoinnin sijaan ne kyllästävät tekstin kehystämisellä, auktoriteettisignaaleilla tai tunnepitoisella kielellä vääristääkseen agentin päättelyä. Suuret kielimallit (LLM) osoittavat samoja ankkurointi- ja kehystämisvääristymiä, jotka vaikuttavat ihmisen kognitioon, mikä tarkoittaa, että identtisten tosiseikkojen uudelleenmuotoilu voi tuottaa dramaattisesti erilaisia agentin tuloksia.
Kognitiiviset tilansansat menevät pidemmälle myrkyttämällä hakutietokantoja, joita agentit käyttävät muistinaan. Artikkelissa mainittu tutkimus osoittaa, että alle kourallisen optimoitujen dokumenttien lisääminen tietokantaan voi luotettavasti ohjata agentin vastauksia kohdennettuihin kyselyihin, ja joidenkin hyökkäysten onnistumisprosentti ylittää 80 % alle 0,1 %:n tietojen saastumisella.
Behavioural Control Traps -ansat ohittavat hienovaraisuuden ja kohdistuvat suoraan agentin toimintatasoon. Näihin kuuluvat upotetut jailbreak-sekvenssit, jotka ohittavat turvallisuusasetukset heti syötettyään, tietojen vuotokomennot, jotka ohjaavat arkaluontoisia käyttäjätietoja hyökkääjän hallitsemiin päätepisteisiin, sekä alagenttien luomiseen liittyvät ansat, jotka pakottavat vanhemman agentin luomaan vaarantuneita alagentteja.
Artikkelissa dokumentoidaan tapaus, jossa Microsoftin M365 Copilot -palvelu joutui yhden huolellisesti muotoillun sähköpostin vuoksi ohittamaan sisäiset luokittelijat ja vuotamaan koko etuoikeutetun kontekstinsa hyökkääjän hallitsemaan päätelaitteeseen. Systeemiset ansat on suunniteltu kaatamaan kokonaisia agenttiverkostoja samanaikaisesti yksittäisten järjestelmien sijaan.
Näihin kuuluvat ruuhkautumisiskut, jotka synkronoivat agentit tyhjentävään kysyntään rajallisista resursseista, vuoden 2010 pörssin Flash Crash -romahdusta mallintavat riippuvuuskaskadit sekä kompositiiviset fragmenttiankat, jotka hajottavat haitallisen hyötykuorman useisiin harmittomalta näyttäviin lähteisiin, jotka muodostavat täyden hyökkäyksen vasta yhdistettynä.
"Ympäristön siementäminen syötteillä, jotka on suunniteltu laukaisemaan makrotason vikoja agenttien korreloituneen käyttäytymisen kautta", selitetään Google Deepmindin artikkelissa, muuttuu yhä vaarallisemmaksi, kun tekoälymallien ekosysteemit muuttuvat yhä homogeenisemmiksi. Rahoitus- ja kryptosektorit ovat suoraan alttiina, kun otetaan huomioon, kuinka syvälle algoritmiset agentit on upotettu kaupankäynnin infrastruktuuriin.
Human-in-the-Loop-ansat täydentävät luokittelua kohdistamalla hyökkäyksensä agentteja valvoviin ihmisiin agenttien sijaan. Kompromitoitu agentti voi tuottaa tulosteita, jotka on suunniteltu aiheuttamaan hyväksymisväsymystä, esittää teknisesti tiiviitä yhteenvetoja, jotka ei-asiantuntija hyväksyisi tarkistamatta, tai lisätä phishing-linkkejä, jotka näyttävät laillisilta suosituksilta. Tutkijat kuvailevat tätä luokkaa alitutkituksi, mutta sen odotetaan kasvavan hybridisten ihmis-AI-järjestelmien laajentuessa.
Tutkijoiden mukaan tekoälyagenttien turvaaminen vaatii muutakin kuin teknisiä korjauksia
Artikkelissa näitä kuutta luokkaa ei käsitellä erillisinä. Yksittäiset ansat voidaan ketjuttaa, kerrostuttaa useiden lähteiden yli tai suunnitella aktivoitumaan vain tietyissä tulevissa olosuhteissa. Jokainen artikkelissa mainituissa erilaisissa red team -tutkimuksissa testattu agentti vaarantui vähintään kerran, ja joissakin tapauksissa se suoritti laittomia tai haitallisia toimia.
OpenAI:n toimitusjohtaja Sam Altman ja muut ovat aiemmin varoittaneet riskeistä, joita aiheutuu agenttien rajoittamattomasta pääsystä arkaluontoisiin järjestelmiin, mutta tämä artikkeli tarjoaa ensimmäisen jäsennellyn kuvan siitä, miten nämä riskit konkretisoituvat käytännössä. Deepmindin tutkijat vaativat koordinoitua vastausta, joka kattaa kolme aluetta.
Teknisellä puolella he suosittelevat vastakkainasettelua mallin kehittämisen aikana, ajonaikaisia sisältöskanneja, syöttöä edeltäviä lähdesuodattimia sekä tulosteiden valvojia, jotka voivat keskeyttää agentin kesken tehtävän, jos havaitaan poikkeavaa käyttäytymistä. Ekosysteemitasolla he kannattavat uusia verkkostandardeja, jotka mahdollistaisivat verkkosivustojen merkitsemään tekoälylle tarkoitetun sisällön, sekä mainejärjestelmiä, jotka pisteyttävät verkkotunnuksen luotettavuuden.

Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä
Anthropic lopetti 4. huhtikuuta Claude-tilauspalvelun käytön Openclaw-alustalla, minkä seurauksena kryptovaluutta-AI-agenttien käyttäjät joutuivat siirtymään kertamaksuperusteiseen laskutukseen. read more.
Lue nyt
Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä
Anthropic lopetti 4. huhtikuuta Claude-tilauspalvelun käytön Openclaw-alustalla, minkä seurauksena kryptovaluutta-AI-agenttien käyttäjät joutuivat siirtymään kertamaksuperusteiseen laskutukseen. read more.
Lue nyt
Anthropic rajoittaa Claude-agentin käyttöoikeuksia kryptovaluuttojen tekoälyautomaation noususuhdanteen keskellä
Lue nytAnthropic lopetti 4. huhtikuuta Claude-tilauspalvelun käytön Openclaw-alustalla, minkä seurauksena kryptovaluutta-AI-agenttien käyttäjät joutuivat siirtymään kertamaksuperusteiseen laskutukseen. read more.
Oikeudellisella puolella he tunnistavat vastuukysymyksessä aukon: kun kaapattu agentti syyllistyy talousrikokseen, nykyiset säännöstöt eivät tarjoa selkeää vastausta siihen, kuuluuko vastuu agentin operaattorille, mallin tarjoajalle vai verkkotunnuksen omistajalle. Tutkijat painottavat haasteen merkitystä tarkoituksellisesti:
"Verkko on rakennettu ihmisten silmille; nyt sitä rakennetaan uudelleen koneille."
Agenttien käyttöönoton kiihtyessä kysymys siirtyy siitä, mitä tietoa verkossa on, siihen, mitä tekoälyjärjestelmät saadaan uskomaan siitä. Onko poliittiset päättäjät, kehittäjät ja tietoturvatutkijat pystyvät koordinoimaan toimiaan riittävän nopeasti vastatakseen tähän kysymykseen ennen kuin todelliset hyökkäykset yleistyvät, on edelleen avoin kysymys.














