Cercetătorii de la Google DeepMind au publicat primul cadru sistematic care descrie modul în care conținutul web rău intenționat poate manipula, deturna și transforma agenții IA autonomi în arme îndreptate împotriva propriilor utilizatori.
Articolul „AI Agent Traps” al Deepmind descrie modul în care hackerii ar putea folosi agenții IA împotriva utilizatorilor

Concluzii cheie:
- ">Cercetătorii de la Google Deepmind au identificat 6 categorii de capcane pentru agenții IA, rata de succes a injectării de conținut ajungând la 86%.
- ">Capcanele de control comportamental care vizează Microsoft M365 Copilot au atins un nivel de 10/10 în ceea ce privește exfiltrarea datelor în cadrul testelor documentate.
- Deepmind solicită antrenament adversarial, scanere de conținut în timpul rulării și noi standarde web pentru a securiza agenții până în 2026.
Articol Deepmind: Agenții IA pot fi deturnați prin memorie otrăvită și comenzi HTML invizibile
Lucrarea, intitulată „Capcane pentru agenți IA”, a fost redactată de Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo și Simon Osindero, toți afiliați la Google Deepmind, și publicată pe SSRN la sfârșitul lunii martie 2026. Ea apare într-un moment în care companiile se grăbesc să implementeze agenți IA capabili să navigheze pe web, să citească e-mailuri, să execute tranzacții și să genereze sub-agenți fără supraveghere umană directă.
Cercetătorii susțin că aceste capacități reprezintă, de asemenea, o vulnerabilitate. „Prin modificarea mediului, mai degrabă decât a modelului”, se menționează în articol, „capcana transformă propriile capacități ale agentului într-o armă împotriva acestuia.”
Cadrul prezentat în articol identifică un total de șase categorii de atacuri, organizate în funcție de partea din operațiunea agentului pe care o vizează. Capcanele de injectare de conținut exploatează decalajul dintre ceea ce vede un om pe o pagină web și ceea ce analizează un agent AI în codul HTML, CSS și metadatele subiacente.
Instrucțiunile ascunse în comentariile HTML, etichetele de accesibilitate sau textul stilizat invizibil nu apar niciodată pentru evaluatorii umani, dar sunt înregistrate ca comenzi legitime pentru agenți. Benchmark-ul WASP a constatat că injecțiile simple de prompturi scrise de oameni și încorporate în conținutul web deturnează parțial agenții în până la 86% din scenariile testate.
Capcanele de manipulare semantică funcționează diferit. În loc să injecteze comenzi, ele saturează textul cu încadrare, semnale de autoritate sau limbaj încărcat emoțional pentru a denatura modul în care un agent raționează. Modelele lingvistice mari (LLM) prezintă aceleași prejudecăți de ancorare și încadrare care afectează cogniția umană, ceea ce înseamnă că reformularea unor fapte identice poate produce rezultate ale agentului dramatic diferite.
Capcanele de stare cognitivă merg mai departe, otrăvind bazele de date de recuperare pe care agenții le folosesc pentru memorie. Cercetările citate în articol arată că injectarea a mai puțin de o mână de documente optimizate într-o bază de cunoștințe poate redirecționa în mod fiabil răspunsurile agenților pentru interogări țintite, cu unele rate de succes ale atacurilor depășind 80% la o contaminare a datelor de mai puțin de 0,1%.
Capcanele de control comportamental ocolește subtilitatea și vizează direct stratul de acțiune al unui agent. Acestea includ secvențe de jailbreak încorporate care anulează alinierea de siguranță odată ce sunt ingerate, comenzi de exfiltrare a datelor care redirecționează informațiile sensibile ale utilizatorului către terminale controlate de atacator și capcane de generare a sub-agenților care constrâng un agent părinte să instanțieze agenți copii compromiși.
Lucrarea documentează un caz care implică M365 Copilot de la Microsoft, în care un singur e-mail special creat a determinat sistemul să ocolească clasificatorii interni și să divulge contextul său privilegiat complet către un terminal controlat de atacator. Capcanele sistemice sunt concepute pentru a bloca simultan rețele întregi de agenți, mai degrabă decât sisteme individuale.
Acestea includ atacuri de congestie care sincronizează agenții într-o cerere exhaustivă de resurse limitate, cascade de interdependență modelate după Flash Crash-ul bursier din 2010 și capcane de fragmente compoziționale care împrăștie o sarcină utilă rău intenționată pe mai multe surse cu aspect benign, care se reconstituie într-un atac complet doar atunci când sunt agregate.
„Introducerea în mediu a unor intrări concepute pentru a declanșa eșecuri la nivel macro prin comportamentul corelat al agenților”, explică documentul Google Deepmind, devine din ce în ce mai periculoasă pe măsură ce ecosistemele modelelor de IA devin mai omogene. Sectoarele financiar și criptografic se confruntă cu o expunere directă, având în vedere cât de profund sunt integrați agenții algoritmici în infrastructura de tranzacționare.
Capcanele „Human-in-the-Loop” completează taxonomia, vizând supraveghetorii umani care supraveghează agenții, mai degrabă decât agenții înșiși. Un agent compromis poate genera ieșiri concepute pentru a induce oboseală în procesul de aprobare, poate prezenta rezumate tehnice dense pe care un neexpert le-ar autoriza fără o examinare atentă sau poate insera linkuri de phishing care arată ca recomandări legitime. Cercetătorii descriu această categorie ca fiind insuficient explorată, dar se așteaptă ca ea să crească pe măsură ce sistemele hibride om-IA se extind.
Cercetătorii afirmă că securizarea agenților IA necesită mai mult decât remedieri tehnice
Lucrarea nu tratează aceste șase categorii ca fiind izolate. Capcanele individuale pot fi legate între ele, stratificate pe mai multe surse sau proiectate să se activeze doar în condiții specifice viitoare. Fiecare agent testat în cadrul diverselor studii de tip red-teaming citate în lucrare a fost compromis cel puțin o dată, în unele cazuri executând acțiuni ilegale sau dăunătoare.
CEO-ul OpenAI, Sam Altman, și alții au semnalat anterior riscurile de a oferi agenților acces necontrolat la sisteme sensibile, dar acest articol oferă prima hartă structurată a modului exact în care aceste riscuri se materializează în practică. Cercetătorii de la Deepmind solicită un răspuns coordonat care să acopere trei domenii.
Din punct de vedere tehnic, aceștia recomandă antrenarea adversarială în timpul dezvoltării modelului, scanere de conținut în timpul rulării, filtre de sursă înainte de ingestie și monitoare de ieșire care pot suspenda un agent în timpul unei sarcini dacă se detectează un comportament anormal. La nivel de ecosistem, aceștia pledează pentru noi standarde web care ar permite site-urilor web să semnaleze conținutul destinat consumului de IA și sisteme de reputație care evaluează fiabilitatea domeniului.

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor
Anthropic a suspendat accesul prin abonament al lui Claude la Openclaw pe 4 aprilie, obligând utilizatorii agenților AI din domeniul criptomonedelor să treacă la un sistem de facturare pe bază de consum. read more.
Citește acum
Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor
Anthropic a suspendat accesul prin abonament al lui Claude la Openclaw pe 4 aprilie, obligând utilizatorii agenților AI din domeniul criptomonedelor să treacă la un sistem de facturare pe bază de consum. read more.
Citește acum
Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor
Citește acumAnthropic a suspendat accesul prin abonament al lui Claude la Openclaw pe 4 aprilie, obligând utilizatorii agenților AI din domeniul criptomonedelor să treacă la un sistem de facturare pe bază de consum. read more.
Din punct de vedere juridic, ei identifică o lacună în materie de responsabilitate: atunci când un agent deturnat comite o infracțiune financiară, cadrele legislative actuale nu oferă un răspuns clar cu privire la faptul dacă răspunderea revine operatorului agentului, furnizorului modelului sau proprietarului domeniului. Cercetătorii prezintă provocarea cu o importanță deliberată:
„Web-ul a fost construit pentru ochii umani; acum este reconstruit pentru cititorii mașinilor.”
Pe măsură ce adoptarea agenților se accelerează, întrebarea se mută de la ce informații există online la ce vor fi făcute sistemele de IA să creadă despre acestea. Dacă factorii de decizie, dezvoltatorii și cercetătorii în domeniul securității se pot coordona suficient de repede pentru a răspunde la această întrebare înainte ca exploatările din lumea reală să ajungă la scară largă rămâne o variabilă deschisă.














