Működteti
News

A Deepmind „AI Agent Traps” című tanulmánya bemutatja, hogyan használhatják a hackerek az AI-ügynököket a felhasználók ellen

A Google DeepMind kutatói közzétettek egy első olyan szisztematikus keretrendszert, amely rendszerezi, hogy a rosszindulatú webes tartalmak hogyan képesek manipulálni, átvenni az irányítást és fegyverként felhasználni az autonóm mesterséges intelligencia-ügynököket saját felhasználóik ellen.

MEGOSZTÁS
A Deepmind „AI Agent Traps” című tanulmánya bemutatja, hogyan használhatják a hackerek az AI-ügynököket a felhasználók ellen

Főbb megállapítások:

  • ">A Google Deepmind kutatói 6 kategóriát azonosítottak az AI-ügynökökre vonatkozó csapdák közül, amelyeknél a tartalombeviteli sikerarány elérte a 86%-ot.
  • ">A Microsoft M365 Copilotot célzó viselkedésvezérlő csapdák a dokumentált tesztek során 10/10-es adateltérítési arányt értek el.
  • A Deepmind ellenséges képzést, futásidejű tartalomszűrőket és új webes szabványokat szorgalmaz az ügynökök 2026-ig történő biztonságossá tétele érdekében.

Deepmind-tanulmány: Az AI-ügynököket megfertőzött memóriával és láthatatlan HTML-parancsokkal lehet eltéríteni

Az „AI Agent Traps” című tanulmány szerzői Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo és Simon Osindero, akik mind a Google Deepmindhoz tartoznak, és 2026 márciusának végén tették közzé az SSRN-en. A tanulmány akkor jelenik meg, amikor a vállalatok versengenek az olyan AI-ügynökök bevezetéséért, amelyek képesek böngészni az interneten, e-maileket olvasni, tranzakciókat végrehajtani és alügynököket létrehozni közvetlen emberi felügyelet nélkül.

A kutatók szerint ezek a képességek egyben kockázatot is jelentenek. „A modell helyett a környezetet megváltoztatva” – áll a cikkben – „a csapda az ügynök saját képességeit fordítja ellene.”

A cikk keretrendszere összesen hat támadási kategóriát azonosít, amelyek az ügynök működésének mely részét célozzák meg. A tartalombeviteli csapdák kihasználják a különbséget az ember által a weboldalon látott és az AI-ügynök által az alapul szolgáló HTML-ben, CSS-ben és metaadatokban elemzett tartalom között.
A HTML-megjegyzésekbe, akadálymentességi címkékbe vagy stílusosan láthatatlanná tett szövegbe rejtett utasítások soha nem jelennek meg az emberi ellenőrök számára, de az ügynökök számára legitim parancsokként regisztrálódnak. A WASP benchmark megállapította, hogy a webtartalomba ágyazott, egyszerű, ember által írt prompt-beviteli csapdák a tesztelt forgatókönyvek akár 86%-ában részlegesen eltérítik az ügynököket.

A szemantikai manipulációs csapdák másképp működnek. Ahelyett, hogy parancsokat injektálnának, a szöveget keretezéssel, tekintélyt sugalló jelekkel vagy érzelmileg töltött nyelvezettel telítik, hogy eltorzítsák az ügynök érvelését. A nagy nyelvi modellek (LLM-ek) ugyanazokat a rögzítési és keretezési torzításokat mutatják, amelyek az emberi kognitív folyamatokat is befolyásolják, ami azt jelenti, hogy azonos tények átfogalmazása drámaian eltérő ügynöki kimenetet eredményezhet.

A kognitív állapotcsapdák még tovább mennek, megmérgezve az ügynökök memóriájához használt visszakeresési adatbázisokat. A cikkben hivatkozott kutatások azt mutatják, hogy ha csupán néhány optimalizált dokumentumot juttatunk be egy tudásbázisba, az megbízhatóan átirányíthatja az ügynök válaszát a célzott lekérdezésekre, és egyes támadások sikeraránya meghaladja a 80%-ot, miközben az adatok szennyezettsége kevesebb, mint 0,1%.

A viselkedés-vezérlő csapdák kihagyják a finom részleteket, és közvetlenül az ügynök cselekvési rétegét célozzák meg. Ide tartoznak a beágyazott jailbreak-szekvenciák, amelyek beolvasás után felülírják a biztonsági beállításokat, az adat-kiszivárogtatási parancsok, amelyek az érzékeny felhasználói információkat a támadó által ellenőrzött végpontokra irányítják át, valamint az alügynök-létrehozó csapdák, amelyek kényszerítik a szülőügynököt a kompromittált gyermekügynökök létrehozására.

A tanulmány egy olyan esetet dokumentál, amely a Microsoft M365 Copilotját érintette, ahol egyetlen, speciálisan kialakított e-mail miatt a rendszer megkerülte a belső osztályozókat, és teljes privilegizált kontextusát kiszivárogtatta egy támadó által ellenőrzött végpontra. A rendszerszintű csapdák úgy vannak kialakítva, hogy az egyes rendszerek helyett az ügynökök teljes hálózatát egyszerre tegyék tönkre.

Ezek közé tartoznak a torlódási támadások, amelyek az ügynököket összehangolják a korlátozott erőforrások kimerítő igénybevételére, a 2010-es tőzsdei Flash Crash-en mintázott függőségi kaszkádok, valamint a kompozíciós fragmentációs csapdák, amelyek egy rosszindulatú hasznos terhet több ártalmatlannak tűnő forrásra szórnak szét, amelyek csak összesítve alkotnak teljes támadást.

„A környezet olyan bemenetekkel való ellátása, amelyek az ügynökök összefüggő viselkedése révén makroszintű meghibásodásokat váltanak ki” – magyarázza a Google Deepmind tanulmánya – egyre veszélyesebbé válik, ahogy az AI-modell ökoszisztémák egyre homogénebbé válnak. A pénzügyi és kriptográfiai szektorok közvetlen kockázatnak vannak kitéve, tekintve, hogy az algoritmikus ügynökök milyen mélyen beágyazódtak a kereskedési infrastruktúrába.

A „Human-in-the-Loop” csapdák kiegészítik a taxonómiát azzal, hogy nem magukat az ügynököket, hanem az ügynököket felügyelő emberi felügyelőket veszik célba. Egy kompromittált ügynök olyan kimeneteket generálhat, amelyek célja a jóváhagyási fáradtság kiváltása, olyan technikailag sűrű összefoglalók bemutatása, amelyeket egy nem szakértő alapos vizsgálat nélkül jóváhagyná, vagy olyan adathalász linkek beillesztése, amelyek legitim ajánlásoknak tűnnek. A kutatók ezt a kategóriát alulkutatottnak írják le, de várhatóan növekedni fog, ahogy a hibrid ember-AI rendszerek mérete növekszik.

A kutatók szerint az AI-ügynökök biztonságának garantálásához több kell, mint technikai javítások

A tanulmány nem kezeli ezeket a hat kategóriát egymástól elszigetelten. Az egyes csapdák összekapcsolhatók, több forrásra rétegezhetők, vagy úgy tervezhetők, hogy csak meghatározott jövőbeli feltételek mellett aktiválódjanak. A tanulmányban hivatkozott különböző red-teaming tanulmányok során tesztelt minden ügynök legalább egyszer kompromittálódott, egyes esetekben illegális vagy káros cselekményeket hajtott végre.

Sam Altman, az OpenAI vezérigazgatója és mások korábban már felhívták a figyelmet arra a kockázatra, amelyet az ügynökök ellenőrizetlen hozzáférése jelent az érzékeny rendszerekhez, de ez a tanulmány az első strukturált áttekintést nyújtja arról, hogy ezek a kockázatok pontosan hogyan valósulnak meg a gyakorlatban. A Deepmind kutatói három területet átfogó, összehangolt válaszlépéseket szorgalmaznak.

A technikai oldalon a modellfejlesztés során ellenséges képzést, futásidejű tartalomszűrőket, a bevitel előtti forrás szűrőket, valamint olyan kimeneti monitorokat javasolnak, amelyek képesek felfüggeszteni az ügynök feladatát, ha rendellenes viselkedést észlelnek. Az ökoszisztéma szintjén olyan új webes szabványokat támogatnak, amelyek lehetővé tennék a weboldalak számára, hogy megjelöljék az AI számára szánt tartalmakat, valamint olyan hírnévrendszereket, amelyek pontozzák a domain megbízhatóságát.

Az Anthropic korlátozza a Claude ügynökhöz való hozzáférést a kriptovaluta-szektorban tapasztalható mesterséges intelligencia-automatizációs fellendülés közepette

Az Anthropic korlátozza a Claude ügynökhöz való hozzáférést a kriptovaluta-szektorban tapasztalható mesterséges intelligencia-automatizációs fellendülés közepette

Az Anthropic április 4-én megszüntette az Openclaw Claude-előfizetési hozzáférését, így a kriptográfiai mesterséges intelligencia-ügynök felhasználói kénytelenek átállni az eseti fizetéses számlázási rendszerre. read more.

Olvass most

Jogi szempontból felelősségi rést azonosítanak: amikor egy eltérített ügynök pénzügyi bűncselekményt követ el, a jelenlegi keretek nem adnak egyértelmű választ arra, hogy a felelősség az ügynök üzemeltetőjét, a modell szolgáltatóját vagy a domain tulajdonosát terheli-e. A kutatók szándékosan hangsúlyozzák a kihívás jelentőségét:

„A webet emberi szemek számára építették; most pedig gépi olvasók számára építik át.”

Az ügynökök elterjedésének felgyorsulásával a kérdés az online létező információkról arra terelődik, hogy az AI-rendszerek mit fognak elhinni róluk. Nyitott kérdés marad, hogy a politikai döntéshozók, a fejlesztők és a biztonsági kutatók elég gyorsan tudnak-e összehangolódni ahhoz, hogy választ adjanak erre a kérdésre, mielőtt a valós világban nagy léptékű kihasználásokra kerül sor.