Istraživači Google Deepminda objavili su prvi sustavni okvir koji katalogizira kako zlonamjerni web-sadržaj može manipulirati, oteti kontrolu nad autonomnim AI agentima i pretvoriti ih u oružje protiv njihovih vlastitih korisnika.
Deepmindov rad „Zamke AI agenata” prikazuje kako bi hakeri mogli naoružati AI agente protiv korisnika

Ključne spoznaje:
- Istraživači Google Deepminda identificirali su 6 kategorija zamki za AI agente, pri čemu su stope uspjeha ubrizgavanja sadržaja dosezale 86%.
- Zamke kontrole ponašanja usmjerene na Microsoft M365 Copilot postigle su 10/10 eksfiltracija podataka u dokumentiranim testovima.
- Deepmind poziva na adversarijalno treniranje, skenere sadržaja u vrijeme izvođenja i nove web-standarde kako bi se agenti osigurali do 2026.
Deepmindov rad: AI agenti mogu biti oteti putem otrovane memorije i nevidljivih HTML naredbi
Rad, naslovljen “AI Agent Traps”, napisali su Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo i Simon Osindero, svi povezani s Google Deepmindom, te je objavljen na SSRN-u krajem ožujka 2026. Dolazi u trenutku kada se kompanije utrkuju u uvođenju AI agenata sposobnih pregledavati web, čitati e-poštu, izvršavati transakcije i stvarati pod-agente bez izravnog ljudskog nadzora.
Istraživači tvrde da su te sposobnosti ujedno i slabost. „Mijenjanjem okruženja, a ne modela”, navodi se u radu, „zamka pretvara agentove vlastite sposobnosti protiv njega.”
Okvir u radu identificira ukupno šest kategorija napada, organiziranih prema dijelu agentova rada koji ciljaju. Zamke ubrizgavanja sadržaja iskorištavaju jaz između onoga što čovjek vidi na web-stranici i onoga što AI agent raščlanjuje u temeljnom HTML-u, CSS-u i metapodacima.
Upute skrivene u HTML komentarima, oznakama pristupačnosti ili stiliziranom nevidljivom tekstu nikada se ne pojavljuju ljudskim recenzentima, ali se agentima registriraju kao legitimne naredbe. WASP benchmark utvrdio je da jednostavne, od ljudi napisane injekcije uputa (prompt injections) ugrađene u web-sadržaj djelomično otimaju agente u čak 86% testiranih scenarija.
Zamke semantičke manipulacije djeluju drukčije. Umjesto ubacivanja naredbi, one zasićuju tekst uokvirivanjem, signalima autoriteta ili emocionalno nabijenim jezikom kako bi iskrivile način na koji agent zaključuje. Veliki jezični modeli (LLM-ovi) pokazuju iste pristranosti sidrenja i uokvirivanja koje utječu na ljudsku spoznaju, što znači da preformuliranje identičnih činjenica može proizvesti dramatično različite izlaze agenata.
Zamke kognitivnog stanja idu korak dalje trujući baze za dohvat koje agenti koriste kao memoriju. Istraživanja citirana u radu pokazuju da umetanje manje od pregršt optimiziranih dokumenata u bazu znanja može pouzdano preusmjeriti odgovore agenata za ciljane upite, pri čemu neke stope uspjeha napada prelaze 80% uz manje od 0,1% kontaminacije podataka.
Zamke kontrole ponašanja preskaču suptilnost i ciljaju izravno na sloj agentovih radnji. One uključuju ugrađene sekvence „jailbreaka” koje nakon usvajanja nadjačavaju sigurnosno usklađivanje, naredbe za eksfiltraciju podataka koje preusmjeravaju osjetljive korisničke informacije na krajnje točke pod kontrolom napadača te zamke stvaranja pod-agenata koje prisiljavaju nadređenog agenta da instancira kompromitirane podređene agente.
Rad dokumentira slučaj koji uključuje Microsoftov M365 Copilot, u kojem je jedna posebno oblikovana poruka e-pošte uzrokovala da sustav zaobiđe interne klasifikatore i „procuri” svoj cjelokupni privilegirani kontekst na krajnju točku pod kontrolom napadača. Sistemne zamke osmišljene su da istodobno sruše čitave mreže agenata, a ne pojedinačne sustave.
One uključuju napade zagušenja koji sinkroniziraju agente u iscrpljujuću potražnju za ograničenim resursima, kaskade međuovisnosti modelirane prema „Flash Crashu” burze iz 2010., te zamke kompozicijskih fragmenata koje raspršuju zlonamjerni teret kroz više naizgled benignih izvora koji se ponovno sastave u potpuni napad tek kada se agregiraju.
„Zasijavanje okruženja ulazima osmišljenima da potaknu makro-razinske kvarove putem koreliranog ponašanja agenata”, objašnjava Google Deepmindov rad, postaje sve opasnije kako ekosustavi AI modela postaju homogeniji. Financijski i kripto sektori izloženi su izravnom riziku s obzirom na to koliko su duboko algoritamski agenti ugrađeni u trgovačku infrastrukturu.
Zamke „human-in-the-loop” zaokružuju taksonomiju ciljajući ljudske nadzornike koji prate agente, a ne same agente. Kompromitirani agent može generirati izlaze osmišljene da izazovu zamor pri odobravanju, prikazivati tehnički guste sažetke koje bi ne-stručnjak odobrio bez provjere ili ubacivati phishing poveznice koje izgledaju kao legitimne preporuke. Istraživači ovu kategoriju opisuju kao nedovoljno istraženu, ali očekuju da će rasti kako se hibridni ljudsko-AI sustavi budu širili.
Istraživači kažu da osiguravanje AI agenata zahtijeva više od tehničkih popravaka
Rad ovih šest kategorija ne tretira kao izolirane. Pojedinačne zamke mogu se povezivati, slagati preko više izvora ili biti dizajnirane da se aktiviraju tek pod određenim budućim uvjetima. Svaki agent testiran u različitim red-teaming studijama citiranim u radu bio je kompromitiran barem jednom, a u nekim slučajevima izvršavao je nezakonite ili štetne radnje.
Izvršni direktor OpenAI-ja Sam Altman i drugi ranije su upozoravali na rizike davanja agentima nekontroliranog pristupa osjetljivim sustavima, no ovaj rad pruža prvu strukturiranu mapu toga kako se ti rizici u praksi konkretno materijaliziraju. Istraživači Deepminda pozivaju na koordiniran odgovor u tri područja.
S tehničke strane preporučuju adversarijalno treniranje tijekom razvoja modela, skenere sadržaja u vrijeme izvođenja, filtre izvora prije ingestije i monitore izlaza koji mogu zaustaviti agenta usred zadatka ako se otkrije anomalno ponašanje. Na razini ekosustava zagovaraju nove web-standarde koji bi web-stranicama omogućili označavanje sadržaja namijenjenog AI konzumaciji te reputacijske sustave koji ocjenjuju pouzdanost domena.

Anthropic ograničava pristup agentu Claude usred procvata automatizacije umjetne inteligencije u kriptovalutama
Anthropic je 4. travnja ukinuo pristup pretplati na Claude za Openclaw, gurajući korisnike kripto AI agenata prema naplati po potrošnji. read more.
Pročitaj
Anthropic ograničava pristup agentu Claude usred procvata automatizacije umjetne inteligencije u kriptovalutama
Anthropic je 4. travnja ukinuo pristup pretplati na Claude za Openclaw, gurajući korisnike kripto AI agenata prema naplati po potrošnji. read more.
Pročitaj
Anthropic ograničava pristup agentu Claude usred procvata automatizacije umjetne inteligencije u kriptovalutama
PročitajAnthropic je 4. travnja ukinuo pristup pretplati na Claude za Openclaw, gurajući korisnike kripto AI agenata prema naplati po potrošnji. read more.
S pravne strane identificiraju jaz u odgovornosti: kada oteti agent počini financijski zločin, postojeći okviri ne daju jasan odgovor pada li odgovornost na operatera agenta, pružatelja modela ili vlasnika domene. Istraživači izazov formuliraju s namjernom težinom:
„Web je izgrađen za ljudske oči; sada se ponovno gradi za strojne čitatelje.”
Kako se usvajanje agenata ubrzava, pitanje se pomiče s toga koje informacije postoje na internetu na to što će se AI sustavima dati da o tome povjeruju. Hoće li donositelji politika, razvojni inženjeri i sigurnosni istraživači moći dovoljno brzo koordinirati kako bi odgovorili na to pitanje prije nego što stvarni napadi stignu u velikom opsegu, ostaje otvorena varijabla.














