Poganja
News

Članek podjetja Deepmind z naslovom »AI Agent Traps« opisuje, kako bi hekerji lahko izkoristili agente umetne inteligence proti uporabnikom

Raziskovalci iz podjetja Google DeepMind so objavili prvi sistematični okvir, ki opisuje, kako lahko zlonamerno spletno vsebino uporabijo za manipulacijo, prevzem nadzora in zlorabo avtonomnih AI-agentov proti njihovim lastnim uporabnikom.

DELI
Članek podjetja Deepmind z naslovom »AI Agent Traps« opisuje, kako bi hekerji lahko izkoristili agente umetne inteligence proti uporabnikom

Ključne ugotovitve:

  • ">Raziskovalci iz podjetja Google Deepmind so opredelili 6 kategorij pasti za agente umetne inteligence, pri čemer je stopnja uspešnosti vstavljanja vsebin dosegla 86 %.
  • ">Pasti za nadzor vedenja, usmerjene v Microsoft M365 Copilot, so v dokumentiranih testih dosegle 10/10 iznos podatkov.
  • Deepmind poziva k nasprotnemu usposabljanju, skenerjem vsebine v času izvajanja in novim spletnim standardom za zaščito agentov do leta 2026.

Članek Deepmind: AI agente je mogoče ugrabiti prek okuženega pomnilnika in nevidnih HTML ukazov

Članek z naslovom »AI Agent Traps« so napisali Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo in Simon Osindero, vsi povezani z Google Deepmind, in ga objavili na SSRN konec marca 2026. Izide v času, ko se podjetja tekmujejo v uvajanju AI agentov, sposobnih brskanja po spletu, branja e-pošte, izvajanja transakcij in ustvarjanja podagentov brez neposrednega človeškega nadzora.

Raziskovalci trdijo, da so te zmogljivosti tudi tveganje. »S spreminjanjem okolja namesto modela,« navaja članek, »past agentove lastne zmogljivosti obrne proti njemu.«

Okvir članka opredeljuje skupno šest kategorij napadov, razvrščenih glede na to, na kateri del delovanja agenta so usmerjeni. Pasti za vbrizgavanje vsebine izkoriščajo vrzel med tem, kar človek vidi na spletni strani, in tem, kar AI-agent razčleni v osnovnem HTML-ju, CSS-ju in metapodatkih.
Navodila, skrita v HTML-komentarjih, oznakah za dostopnost ali stilsko nevidnem besedilu, se človeškim pregledovalcem nikoli ne prikažejo, vendar se agentom registrirajo kot legitimni ukazi. Primerjava WASP je pokazala, da preprosta, človeško napisana vbrizgavanja ukazov, vgrajena v spletno vsebino, delno prevzamejo nadzor nad agenti v do 86 % testiranih scenarijev.

Pasti za semantično manipulacijo delujejo drugače. Namesto vstavljanja ukazov besedilo nasičijo z okvirjanjem, signali avtoritete ali čustveno nabitim jezikom, da izkrivijo način razmišljanja agenta. Veliki jezikovni modeli (LLM) kažejo enake pristranskosti pri zasidranju in okvirjanju, ki vplivajo na človeško kognicijo, kar pomeni, da lahko preoblikovanje identičnih dejstev povzroči dramatično različne izhodne podatke agentov.

Pasti kognitivnega stanja gredo še dlje, saj zastrupljajo baze podatkov, ki jih agenti uporabljajo za spomin. Raziskave, navedene v članku, kažejo, da lahko vstavljanje manj kot peščice optimiziranih dokumentov v bazo znanja zanesljivo preusmeri odzive agentov na ciljna poizvedovanja, pri čemer nekatere stopnje uspešnosti napadov presegajo 80 % pri manj kot 0,1 % onesnaženja podatkov.

Past za nadzor vedenja preskoči subtilnost in cilja neposredno na akcijsko plast agenta. Te vključujejo vgrajene zaporedja za izhod iz zapora, ki po vnosu prevladajo nad varnostnim usklajevanjem, ukaze za iznos podatkov, ki preusmerijo občutljive uporabniške informacije na končne točke, ki jih nadzira napadalec, ter pasti za ustvarjanje podagentov, ki prisilijo nadrejenega agenta v instanco ogroženih podrejenih agentov.

Članek dokumentira primer, v katerega je vpleten Microsoftov M365 Copilot, kjer je eno samo posebej oblikovano e-poštno sporočilo povzročilo, da je sistem zaobšel notranje klasifikatorje in razkril svoj celoten privilegiran kontekst končni točki, ki jo nadzira napadalec. Sistemski pasti so zasnovane tako, da hkrati onesposobijo celotne mreže agentov, namesto posameznih sistemov.

Te vključujejo napade z zasičenjem, ki agente usklajujejo v izčrpno povpraševanje po omejenih virih, kaskade medsebojne odvisnosti, oblikovane po vzoru borznega »flash crash« iz leta 2010, ter pasti sestavljenih fragmentov, ki zlonamerno tovor razpršijo po več na videz neškodljivih virih, ki se šele ob združitvi preoblikujejo v popoln napad.

„Zasajanje okolja z vnosi, zasnovanimi za sprožanje napak na makroravni prek koreliranega vedenja agentov,“ pojasnjuje članek Google Deepmind, postaja vse bolj nevarno, saj ekosistemi modelov umetne inteligence postajajo bolj homogeni. Finančni in kriptosektor sta neposredno izpostavljena, glede na to, kako globoko so algoritmični agenti vgrajeni v trgovalno infrastrukturo.

Pasti »human-in-the-loop« dopolnjujejo taksonomijo, saj ciljajo na človeške nadzornike, ki nadzorujejo agente, in ne na agente same. Kompromitiran agent lahko ustvari izhodne podatke, zasnovane tako, da povzročijo utrujenost pri odobravanju, predstavi tehnično zahtevne povzetke, ki bi jih neekspert odobril brez podrobnega pregleda, ali vstavi povezave za phishing, ki izgledajo kot legitimna priporočila. Raziskovalci to kategorijo opisujejo kot premalo raziskano, vendar pričakujejo, da bo rasla s širitvijo hibridnih sistemov človek-AI.

Raziskovalci trdijo, da za zaščito AI-agentov potrebujemo več kot le tehnične popravke

Članek teh šestih kategorij ne obravnava kot ločenih. Posamezne pasti se lahko verigejo, prekrivajo več virov ali so zasnovane tako, da se aktivirajo le pod določenimi prihodnjimi pogoji. Vsak agent, testiran v različnih študijah rdečih ekip, navedenih v članku, je bil vsaj enkrat ogrožen, v nekaterih primerih pa je izvedel nezakonita ali škodljiva dejanja.

Izvršni direktor OpenAI Sam Altman in drugi so že prej opozorili na tveganja, povezana z neomejenim dostopom agentov do občutljivih sistemov, vendar ta članek prvič strukturirano prikazuje, kako se ta tveganja uresničujejo v praksi. Raziskovalci Deepminda pozivajo k usklajenemu odzivu na treh področjih.

Na tehnični strani priporočajo nasprotno usposabljanje med razvojem modela, skenerje vsebine v času izvajanja, filtre virov pred vnosom in monitorje izhodnih podatkov, ki lahko agenta začasno ustavijo sredi naloge, če se zazna nenavadno vedenje. Na ravni ekosistema zagovarjajo nove spletne standarde, ki bi spletnim stranem omogočali označevanje vsebin, namenjenih za uporabo umetne inteligence, ter sisteme ugleda, ki ocenjujejo zanesljivost domene.

Anthropic omejuje dostop do agenta Claude v času razcveta avtomatizacije z umetno inteligenco v svetu kriptovalut

Anthropic omejuje dostop do agenta Claude v času razcveta avtomatizacije z umetno inteligenco v svetu kriptovalut

Podjetje Anthropic je 4. aprila prekinilo naročniški dostop do storitve Openclaw za Clauda, s čimer je uporabnike kriptovalutnih AI-agentov prisililo k prehodu na plačevanje po porabi. read more.

Preberi zdaj

Na pravni strani ugotavljajo vrzel v odgovornosti: ko ugrabljen agent stori finančni zločin, sedanji okviri ne ponujajo jasnega odgovora na vprašanje, ali odgovornost nosi upravljavec agenta, ponudnik modela ali lastnik domene. Raziskovalci izzivu pripisujejo namerno težo:

»Splet je bil zgrajen za človeške oči; zdaj se ga preoblikuje za bralce strojev.«

S pospešeno uvedbo agentov se vprašanje preusmerja s tega, katere informacije obstajajo na spletu, na to, kaj bodo sistemi umetne inteligence verjeli o njih. Ali se bodo oblikovalci politik, razvijalci in raziskovalci na področju varnosti lahko dovolj hitro uskladili, da bodo odgovorili na to vprašanje, preden se v resničnem svetu pojavijo izkoriščanja v velikem obsegu, ostaja odprta spremenljivka.