Poháňa
News

Štúdia spoločnosti Deepmind s názvom „AI Agent Traps“ popisuje, ako by hackeri mohli zneužiť agentov umelej inteligencie proti používateľom

Výskumníci z Google DeepMind zverejnili prvý systematický rámec, ktorý popisuje, ako môže škodlivý webový obsah manipulovať s autonómnymi agentmi umelej inteligencie, prevziať nad nimi kontrolu a zneužiť ich proti ich vlastným používateľom.

NAPÍSAL
ZDIEĽAŤ
Štúdia spoločnosti Deepmind s názvom „AI Agent Traps“ popisuje, ako by hackeri mohli zneužiť agentov umelej inteligencie proti používateľom

Kľúčové body:

  • ">Výskumníci spoločnosti Google Deepmind identifikovali 6 kategórií pascí pre agentov umelej inteligencie, pričom úspešnosť vstrekovania obsahu dosiahla 86 %.
  • ">Pasti na ovládanie správania zamerané na Microsoft M365 Copilot dosiahli v zdokumentovaných testoch 10/10 úspešnosť exfiltrácie dát.
  • Deepmind vyzýva k adversariálnemu tréningu, skenerom obsahu v reálnom čase a novým webovým štandardom na zabezpečenie agentov do roku 2026.

Článok Deepmind: Agenti umelej inteligencie môžu byť unesení prostredníctvom otrávenej pamäte a neviditeľných HTML príkazov

Článok s názvom „AI Agent Traps“ napísali Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo a Simon Osindero, všetci pôsobiaci v spoločnosti Google Deepmind, a bol zverejnený na SSRN koncom marca 2026. Prichádza v čase, keď spoločnosti súťažia o nasadenie agentov umelej inteligencie schopných prehliadať web, čítať e-maily, vykonávať transakcie a vytvárať subagentov bez priameho ľudského dohľadu.

Výskumníci tvrdia, že tieto schopnosti sú zároveň aj rizikom. „Zmenou prostredia namiesto modelu,“ uvádza sa v článku, „pasca zbraňuje vlastné schopnosti agenta proti nemu.“

Rámec článku identifikuje celkovo šesť kategórií útokov usporiadaných podľa toho, na ktorú časť činnosti agenta sa zameriavajú. Pasti na vstrekovanie obsahu využívajú rozdiel medzi tým, čo človek vidí na webovej stránke, a tým, čo agent umelej inteligencie analyzuje v podkladovom HTML, CSS a metadátach.
Pokyny skryté v HTML komentároch, značkách prístupnosti alebo štýlom nastavenom neviditeľnom texte sa nikdy nezobrazia ľudským recenzentom, ale pre agentov sa registrujú ako legitímne príkazy. Benchmark WASP zistil, že jednoduché, človekom napísané vstrekovania výziev vložené do webového obsahu čiastočne unesú agentov až v 86 % testovaných scenárov.

Pasti sémantickej manipulácie fungujú inak. Namiesto vkladania príkazov nasycujú text rámcovaním, signálmi autority alebo emocionálne nabitým jazykom, aby skreslili spôsob uvažovania agenta. Veľké jazykové modely (LLM) vykazujú rovnaké skreslenia zakotvenia a rámcovania, ktoré ovplyvňujú ľudské vnímanie, čo znamená, že preformulovanie identických faktov môže viesť k dramaticky odlišným výstupom agentov.

Pasti kognitívneho stavu idú ešte ďalej tým, že otravujú vyhľadávacie databázy, ktoré agenti používajú na ukladanie do pamäti. Výskum citovaný v článku ukazuje, že vloženie menej ako hŕstky optimalizovaných dokumentov do znalostnej bázy môže spoľahlivo presmerovať odpovede agentov na cielené dotazy, pričom niektoré úspešnosti útokov presahujú 80 % pri kontaminácii dát menej ako 0,1 %.

Behaviorálne kontrolné pasce obchádzajú jemnosť a zameriavajú sa priamo na akčnú vrstvu agenta. Patria sem vložené sekvencie na únik z väzenia, ktoré po načítaní prepisujú bezpečnostné nastavenia, príkazy na exfiltráciu dát, ktoré presmerujú citlivé informácie o používateľoch na koncové body kontrolované útočníkom, a pasce na vytváranie podagentov, ktoré nútia nadradeného agenta k inštanciácii kompromitovaných podradených agentov.

Táto štúdia dokumentuje prípad týkajúci sa produktu Microsoft M365 Copilot, kde jediný špeciálne vytvorený e-mail spôsobil, že systém obišiel interné klasifikátory a odhalil svoj celý privilegovaný kontext koncovému bodu kontrolovanému útočníkom. Systémové pasce sú navrhnuté tak, aby naraz vyradili celé siete agentov, a nie jednotlivé systémy.

Patria sem útoky na preťaženie, ktoré synchronizujú agentov do vyčerpávajúceho dopytu po obmedzených zdrojoch, kaskády vzájomnej závislosti inšpirované „flash crashom“ na akciovom trhu v roku 2010 a pasce kompozičných fragmentov, ktoré rozptýlia škodlivý náklad medzi viaceré nevinné zdroje, ktoré sa zrekonštruujú do plnohodnotného útoku až po ich agregácii.

„Zasievanie prostredia vstupmi navrhnutými tak, aby vyvolali zlyhania na makroúrovni prostredníctvom korelovaného správania agentov,“ vysvetľuje dokument Google Deepmind, sa stáva čoraz nebezpečnejším, keďže ekosystémy modelov umelej inteligencie sú čoraz homogénnejšie. Finančný a kryptomenový sektor čelia priamej expozícii vzhľadom na to, ako hlboko sú algoritmickí agenti zakorenené v obchodnej infraštruktúre.

Pasti typu „human-in-the-loop“ dopĺňajú taxonómiu tým, že sa zameriavajú na ľudských supervízorov dohliadajúcich na agentov, a nie na samotných agentov. Kompromitovaný agent môže generovať výstupy navrhnuté tak, aby vyvolali únavu zo schvaľovania, prezentovať technicky zložité súhrny, ktoré by laik schválil bez dôkladného preskúmania, alebo vkladať phishingové odkazy, ktoré vyzerajú ako legitímne odporúčania. Výskumníci opisujú túto kategóriu ako nedostatočne preskúmanú, ale očakávajú, že bude rásť s rozširovaním hybridných systémov človek-AI.

Výskumníci tvrdia, že zabezpečenie agentov umelej inteligencie si vyžaduje viac než len technické opravy

Táto štúdia neberie týchto šesť kategórií ako izolované. Jednotlivé pasce môžu byť prepojené, vrstvené cez viaceré zdroje alebo navrhnuté tak, aby sa aktivovali len za špecifických budúcich podmienok. Každý agent testovaný v rôznych štúdiách red-teaming, citovaných v tejto štúdii, bol aspoň raz kompromitovaný, pričom v niektorých prípadoch vykonal nezákonné alebo škodlivé akcie.

Generálny riaditeľ OpenAI Sam Altman a ďalší už skôr upozornili na riziká spojené s poskytnutím nekontrolovaného prístupu agentom k citlivým systémom, ale táto štúdia poskytuje prvú štruktúrovanú mapu toho, ako sa tieto riziká v praxi konkrétne prejavujú. Výskumníci z Deepmind vyzývajú na koordinovanú reakciu v troch oblastiach.

Z technického hľadiska odporúčajú adversársky tréning počas vývoja modelu, skenery obsahu počas behu, filtre zdrojov pred načítaním a monitory výstupov, ktoré môžu agenta pozastaviť uprostred úlohy, ak sa zistí anomálne správanie. Na úrovni ekosystému obhajujú nové webové štandardy, ktoré by umožnili webovým stránkam označovať obsah určený na spotrebu umelou inteligenciou, a systémy reputácie, ktoré hodnotia spoľahlivosť domén.

Spoločnosť Anthropic obmedzuje prístup k agentovi Claude uprostred rozmachu automatizácie umelej inteligencie v kryptomenovom sektore

Spoločnosť Anthropic obmedzuje prístup k agentovi Claude uprostred rozmachu automatizácie umelej inteligencie v kryptomenovom sektore

Spoločnosť Anthropic 4. apríla zrušila predplatné pre Openclaw, čím prinútila používateľov kryptomenového AI agenta prejsť na platbu podľa skutočného využitia. read more.

Čítať teraz

Z právneho hľadiska identifikujú medzeru v zodpovednosti: keď unesený agent spácha finančný trestný čin, súčasné rámce neposkytujú jasnú odpoveď na to, či zodpovednosť nesie prevádzkovateľ agenta, poskytovateľ modelu alebo vlastník domény. Výskumníci formulujú túto výzvu s dôrazom:

„Web bol vytvorený pre ľudské oči; teraz sa prestavuje pre strojové čítanie.“

S rastúcim využívaním agentov sa otázka posúva od toho, aké informácie existujú online, k tomu, čo budú systémy umelej inteligencie o nich považovať za pravdu. Otázkou zostáva, či sa tvorcovia politík, vývojári a bezpečnostní výskumníci dokážu koordinovať dostatočne rýchlo, aby na túto otázku odpovedali skôr, ako sa v reálnom svete objavia zneužitia vo veľkom meradle.