NewsPublicat:5 apr. 2026, 23:45

Articolul „AI Agent Traps” al Deepmind descrie modul în care hackerii ar putea folosi agenții IA împotriva utilizatorilor

Cercetătorii de la Google DeepMind au publicat primul cadru sistematic care descrie modul în care conținutul web rău intenționat poate manipula, deturna și transforma agenții IA autonomi în arme îndreptate împotriva propriilor utilizatori.

SCRIS DE

Jamie Redman

DISTRIBUIE

Publicat: 5 apr. 2026, 23:45

Articolul „AI Agent Traps” al Deepmind descrie modul în care hackerii ar putea folosi agenții IA împotriva utilizatorilor

Concluzii cheie:

">Cercetătorii de la Google Deepmind au identificat 6 categorii de capcane pentru agenții IA, rata de succes a injectării de conținut ajungând la 86%.
">Capcanele de control comportamental care vizează Microsoft M365 Copilot au atins un nivel de 10/10 în ceea ce privește exfiltrarea datelor în cadrul testelor documentate.
Deepmind solicită antrenament adversarial, scanere de conținut în timpul rulării și noi standarde web pentru a securiza agenții până în 2026.

Articol Deepmind: Agenții IA pot fi deturnați prin memorie otrăvită și comenzi HTML invizibile

Lucrarea, intitulată „Capcane pentru agenți IA”, a fost redactată de Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo și Simon Osindero, toți afiliați la Google Deepmind, și publicată pe SSRN la sfârșitul lunii martie 2026. Ea apare într-un moment în care companiile se grăbesc să implementeze agenți IA capabili să navigheze pe web, să citească e-mailuri, să execute tranzacții și să genereze sub-agenți fără supraveghere umană directă.

Cercetătorii susțin că aceste capacități reprezintă, de asemenea, o vulnerabilitate. „Prin modificarea mediului, mai degrabă decât a modelului”, se menționează în articol, „capcana transformă propriile capacități ale agentului într-o armă împotriva acestuia.”

Cadrul prezentat în articol identifică un total de șase categorii de atacuri, organizate în funcție de partea din operațiunea agentului pe care o vizează. Capcanele de injectare de conținut exploatează decalajul dintre ceea ce vede un om pe o pagină web și ceea ce analizează un agent AI în codul HTML, CSS și metadatele subiacente.
Instrucțiunile ascunse în comentariile HTML, etichetele de accesibilitate sau textul stilizat invizibil nu apar niciodată pentru evaluatorii umani, dar sunt înregistrate ca comenzi legitime pentru agenți. Benchmark-ul WASP a constatat că injecțiile simple de prompturi scrise de oameni și încorporate în conținutul web deturnează parțial agenții în până la 86% din scenariile testate.

Capcanele de manipulare semantică funcționează diferit. În loc să injecteze comenzi, ele saturează textul cu încadrare, semnale de autoritate sau limbaj încărcat emoțional pentru a denatura modul în care un agent raționează. Modelele lingvistice mari (LLM) prezintă aceleași prejudecăți de ancorare și încadrare care afectează cogniția umană, ceea ce înseamnă că reformularea unor fapte identice poate produce rezultate ale agentului dramatic diferite.

Capcanele de stare cognitivă merg mai departe, otrăvind bazele de date de recuperare pe care agenții le folosesc pentru memorie. Cercetările citate în articol arată că injectarea a mai puțin de o mână de documente optimizate într-o bază de cunoștințe poate redirecționa în mod fiabil răspunsurile agenților pentru interogări țintite, cu unele rate de succes ale atacurilor depășind 80% la o contaminare a datelor de mai puțin de 0,1%.

Capcanele de control comportamental ocolește subtilitatea și vizează direct stratul de acțiune al unui agent. Acestea includ secvențe de jailbreak încorporate care anulează alinierea de siguranță odată ce sunt ingerate, comenzi de exfiltrare a datelor care redirecționează informațiile sensibile ale utilizatorului către terminale controlate de atacator și capcane de generare a sub-agenților care constrâng un agent părinte să instanțieze agenți copii compromiși.

Lucrarea documentează un caz care implică M365 Copilot de la Microsoft, în care un singur e-mail special creat a determinat sistemul să ocolească clasificatorii interni și să divulge contextul său privilegiat complet către un terminal controlat de atacator. Capcanele sistemice sunt concepute pentru a bloca simultan rețele întregi de agenți, mai degrabă decât sisteme individuale.

Acestea includ atacuri de congestie care sincronizează agenții într-o cerere exhaustivă de resurse limitate, cascade de interdependență modelate după Flash Crash-ul bursier din 2010 și capcane de fragmente compoziționale care împrăștie o sarcină utilă rău intenționată pe mai multe surse cu aspect benign, care se reconstituie într-un atac complet doar atunci când sunt agregate.

„Introducerea în mediu a unor intrări concepute pentru a declanșa eșecuri la nivel macro prin comportamentul corelat al agenților”, explică documentul Google Deepmind, devine din ce în ce mai periculoasă pe măsură ce ecosistemele modelelor de IA devin mai omogene. Sectoarele financiar și criptografic se confruntă cu o expunere directă, având în vedere cât de profund sunt integrați agenții algoritmici în infrastructura de tranzacționare.

Capcanele „Human-in-the-Loop” completează taxonomia, vizând supraveghetorii umani care supraveghează agenții, mai degrabă decât agenții înșiși. Un agent compromis poate genera ieșiri concepute pentru a induce oboseală în procesul de aprobare, poate prezenta rezumate tehnice dense pe care un neexpert le-ar autoriza fără o examinare atentă sau poate insera linkuri de phishing care arată ca recomandări legitime. Cercetătorii descriu această categorie ca fiind insuficient explorată, dar se așteaptă ca ea să crească pe măsură ce sistemele hibride om-IA se extind.

Cercetătorii afirmă că securizarea agenților IA necesită mai mult decât remedieri tehnice

Lucrarea nu tratează aceste șase categorii ca fiind izolate. Capcanele individuale pot fi legate între ele, stratificate pe mai multe surse sau proiectate să se activeze doar în condiții specifice viitoare. Fiecare agent testat în cadrul diverselor studii de tip red-teaming citate în lucrare a fost compromis cel puțin o dată, în unele cazuri executând acțiuni ilegale sau dăunătoare.

CEO-ul OpenAI, Sam Altman, și alții au semnalat anterior riscurile de a oferi agenților acces necontrolat la sisteme sensibile, dar acest articol oferă prima hartă structurată a modului exact în care aceste riscuri se materializează în practică. Cercetătorii de la Deepmind solicită un răspuns coordonat care să acopere trei domenii.

Din punct de vedere tehnic, aceștia recomandă antrenarea adversarială în timpul dezvoltării modelului, scanere de conținut în timpul rulării, filtre de sursă înainte de ingestie și monitoare de ieșire care pot suspenda un agent în timpul unei sarcini dacă se detectează un comportament anormal. La nivel de ecosistem, aceștia pledează pentru noi standarde web care ar permite site-urilor web să semnaleze conținutul destinat consumului de IA și sisteme de reputație care evaluează fiabilitatea domeniului.

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Anthropic a suspendat accesul prin abonament al lui Claude la Openclaw pe 4 aprilie, obligând utilizatorii agenților AI din domeniul criptomonedelor să treacă la un sistem de facturare pe bază de consum. read more.

Citește acum

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Citește acum

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Citește acum

Din punct de vedere juridic, ei identifică o lacună în materie de responsabilitate: atunci când un agent deturnat comite o infracțiune financiară, cadrele legislative actuale nu oferă un răspuns clar cu privire la faptul dacă răspunderea revine operatorului agentului, furnizorului modelului sau proprietarului domeniului. Cercetătorii prezintă provocarea cu o importanță deliberată:

„Web-ul a fost construit pentru ochii umani; acum este reconstruit pentru cititorii mașinilor.”

Pe măsură ce adoptarea agenților se accelerează, întrebarea se mută de la ce informații există online la ce vor fi făcute sistemele de IA să creadă despre acestea. Dacă factorii de decizie, dezvoltatorii și cercetătorii în domeniul securității se pot coordona suficient de repede pentru a răspunde la această întrebare înainte ca exploatările din lumea reală să ajungă la scară largă rămâne o variabilă deschisă.

Etichete în această poveste

Artificial intelligence (AI)cybersecurity Google Security

Alegerile de jocuri Bitcoin

Betpanda

Recenzie Obține Bonus

100% Bonus până la 1 BTC + 10% Cashback Săptămânal fără Pariu

Cryptorino

Recenzie Obține Bonus

100% Bonus Până La 1 BTC + 10% Cashback Săptămânal

Playbet.io

Recenzie Obține Bonus

130% până la 2.500 USDT + 200 Răsuciri Gratuite + 20% Cashback Săptămânal fără Pariu

Parimatch

Recenzie Obține Bonus

1000% Bonus de Bun Venit + Pariu Gratuit până la 1 BTC

Cloudbet

Recenzie Obține Bonus

Până la 2.500 USDT + 150 Răsuciri Gratuite + Până la 30% Rakeback

BC.Game

Recenzie Obține Bonus

470% Bonus până la $500.000 + 400 Răsuciri Gratuite + 20% Rakeback

Stake

Recenzie Obține Bonus

3,5% Rakeback la Fiecare Pariu + Extrageri Săptămânale

Vave

Recenzie Obține Bonus

425% până la 5 BTC + 100 Răsuciri Gratuite

Punkz

Recenzie Obține Bonus

100% până la $20K + Rakeback Zilnic

Articolul „AI Agent Traps” al Deepmind descrie modul în care hackerii ar putea folosi agenții IA împotriva utilizatorilor

Articol Deepmind: Agenții IA pot fi deturnați prin memorie otrăvită și comenzi HTML invizibile

Cercetătorii afirmă că securizarea agenților IA necesită mai mult decât remedieri tehnice

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Anthropic restricționează accesul la agentul Claude pe fondul boomului automatizării bazate pe IA în sectorul criptomonedelor

Etichete în această poveste

Alegerile de jocuri Bitcoin

Cele mai bune exchange-uri cripto

Cele mai bune exchange-uri Bitcoin

Cele mai bune exchange-uri P2P

Vezi toate recenziile despre exchange-uri...

Exchange-uri

Portofele

Jocuri de noroc

ViaBTC prezintă soluții de împrumuturi garantate cu active pentru a face față condițiilor variate ale pieței

MEXC integrează USD1 în infrastructura sa completă destinată utilizatorilor din întreaga lume

Safe lansează Safenet Beta, oferind deținătorilor de tokenuri SAFE un rol în securitatea rețelei

Adrian Wall, reprezentant al Digital Sovereignty Alliance, vorbește despre tokenizare la Conferința Penn Blockchain 2026

Bitget introduce criptomonedele în cheltuielile de zi cu zi odată cu lansarea cardului Bitget în regiunea Asia-Pacific

Latam Insights: Global Pix și Mercado Libre renunță la token