NewsPublikováno:5. 4. 2026 23:45

Článek společnosti Deepmind s názvem „AI Agent Traps“ popisuje, jak by hackeři mohli zneužít agenty umělé inteligence proti uživatelům

Výzkumníci z Google DeepMind zveřejnili první systematický rámec, který popisuje, jak může škodlivý webový obsah manipulovat s autonomními agenty umělé inteligence, převzít nad nimi kontrolu a zneužít je proti jejich vlastním uživatelům.

NAPSAL

Jamie Redman

SDÍLET

Publikováno: 5. 4. 2026 23:45

Článek společnosti Deepmind s názvem „AI Agent Traps“ popisuje, jak by hackeři mohli zneužít agenty umělé inteligence proti uživatelům

Hlavní body:

">Výzkumníci společnosti Google Deepmind identifikovali 6 kategorií pastí pro agenty umělé inteligence, přičemž úspěšnost vkládání obsahu dosáhla 86 %.
">Pasti zaměřené na ovládání chování, které cílily na Microsoft M365 Copilot, dosáhly v dokumentovaných testech 100% úspěšnosti při exfiltraci dat.
Deepmind vyzývá k adversariálnímu tréninku, skenerům obsahu v reálném čase a novým webovým standardům, aby byli agenti do roku 2026 zabezpečeni.

Článek Deepmind: Agenty AI lze unést pomocí otrávené paměti a neviditelných HTML příkazů

Článek s názvem „AI Agent Traps“ (Pasti pro agenty AI) napsali Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo a Simon Osindero, všichni z Google Deepmind, a byl zveřejněn na SSRN koncem března 2026. Vychází v době, kdy společnosti soupeří o nasazení agentů AI schopných procházet web, číst e-maily, provádět transakce a vytvářet podagenty bez přímého lidského dohledu.

Výzkumníci tvrdí, že tyto schopnosti představují také riziko. „Změnou prostředí namísto modelu,“ uvádí článek, „pasti obrací vlastní schopnosti agenta proti němu.“

Rámec článku identifikuje celkem šest kategorií útoků, které se zaměřují na různé části fungování agenta. Pasti typu Content Injection Traps využívají rozpor mezi tím, co člověk vidí na webové stránce, a tím, co agent AI analyzuje v podkladovém HTML, CSS a metadatech.

Pokyny skryté v HTML komentářích, značkách přístupnosti nebo stylově neviditelném textu se lidským recenzentům nikdy nezobrazí, ale pro agenty se jeví jako legitimní příkazy. Benchmark WASP zjistil, že jednoduché, lidmi napsané injekce příkazů vložené do webového obsahu částečně unesou agenty až v 86 % testovaných scénářů.

Pasti sémantické manipulace fungují jinak. Namísto vkládání příkazů nasycují text rámováním, signály autority nebo emocionálně nabitým jazykem, aby zkreslily uvažování agenta. Velké jazykové modely (LLM) vykazují stejné zkreslení ukotvení a rámování, které ovlivňují lidské vnímání, což znamená, že přeformulování identických faktů může vést k dramaticky odlišným výstupům agentů.

Pasti kognitivního stavu jdou ještě dál tím, že otravují vyhledávací databáze, které agenti používají jako paměť. Výzkum citovaný v článku ukazuje, že vložení méně než hrstky optimalizovaných dokumentů do znalostní báze může spolehlivě přesměrovat odpovědi agentů na cílené dotazy, přičemž některé úspěšnosti útoků přesahují 80 % při kontaminaci dat nižší než 0,1 %.

Behaviorální kontrolní pasti obcházejí jemné nuance a míří přímo na akční vrstvu agenta. Patří mezi ně vložené sekvence pro únik z vězení, které po načtení přepisují bezpečnostní nastavení, příkazy k exfiltraci dat, které přesměrovávají citlivé informace o uživateli na koncové body ovládané útočníkem, a pasti na vytváření podřízených agentů, které donutí nadřazeného agenta instancovat kompromitované podřízené agenty.

Článek dokumentuje případ týkající se Microsoftu M365 Copilot, kde jediný upravený e-mail způsobil, že systém obešel interní klasifikátory a vyzradil svůj plný privilegovaný kontext do koncového bodu ovládaného útočníkem. Systémové pasti jsou navrženy tak, aby způsobily selhání celých sítí agentů současně, spíše než jednotlivých systémů.

Patří mezi ně útoky na přetížení, které synchronizují agenty do vyčerpávající poptávky po omezených zdrojích, kaskády vzájemné závislosti modelované podle burzovního „flash crash“ z roku 2010 a kompoziční fragmentační pasti, které rozptýlí škodlivý náklad napříč několika nevinně vypadajícími zdroji, které se spojí do plnohodnotného útoku pouze při agregaci.

„Zasévání prostředí vstupy navrženými tak, aby vyvolaly selhání na makroúrovni prostřednictvím korelovaného chování agentů,“ vysvětluje dokument Google Deepmind, se stává stále nebezpečnějším, jak se ekosystémy modelů AI stávají homogennějšími. Finanční a kryptoměnový sektor čelí přímému ohrožení vzhledem k tomu, jak hluboce jsou algoritmičtí agenti zakotveni v obchodní infrastruktuře.

Pasti typu „human-in-the-loop“ doplňují taxonomii tím, že se zaměřují spíše na lidské supervizory dohlížející na agenty než na samotné agenty. Kompromitovaný agent může generovat výstupy navržené tak, aby vyvolaly únavu z schvalování, prezentovat technicky náročné souhrny, které by laik schválil bez důkladného prozkoumání, nebo vkládat phishingové odkazy, které vypadají jako legitimní doporučení. Výzkumníci popisují tuto kategorii jako nedostatečně prozkoumanou, ale očekávají, že s rozšiřováním hybridních systémů člověk-AI poroste.

Výzkumníci tvrdí, že zabezpečení agentů AI vyžaduje více než jen technická řešení

Článek nepojednává o těchto šesti kategoriích jako o izolovaných. Jednotlivé pasti mohou být řetězeny, vrstveny napříč více zdroji nebo navrženy tak, aby se aktivovaly pouze za specifických budoucích podmínek. Každý agent testovaný v různých studiích red-teamingových testů citovaných v článku byl alespoň jednou kompromitován, v některých případech provedl nelegální nebo škodlivé akce.

Generální ředitel OpenAI Sam Altman a další již dříve upozornili na rizika spojená s poskytnutím nekontrolovaného přístupu agentům k citlivým systémům, ale tato studie poskytuje první strukturovaný přehled toho, jak se tato rizika v praxi konkrétně projevují. Výzkumníci společnosti Deepmind volají po koordinované reakci zahrnující tři oblasti.

Z technického hlediska doporučují adversarial training během vývoje modelu, skenery obsahu v běhu, filtry zdrojů před načtením a monitory výstupů, které mohou agenta pozastavit uprostřed úkolu, pokud je detekováno anomální chování. Na úrovni ekosystému prosazují nové webové standardy, které by webovým stránkám umožnily označovat obsah určený pro spotřebu AI, a reputační systémy, které hodnotí spolehlivost domén.

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Společnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.

Přečíst

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Společnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.

Přečíst

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Přečíst

Společnost Anthropic 4. dubna zrušila předplatné pro Openclaw, čímž přiměla uživatele kryptoměnových AI agentů přejít na platby podle skutečného využití. read more.

Z právního hlediska identifikují mezeru v odpovědnosti: když agent, který byl napaden, spáchá finanční trestný čin, současné rámcové podmínky nenabízejí jasnou odpověď na to, zda odpovědnost nese provozovatel agenta, poskytovatel modelu nebo vlastník domény. Výzkumníci formulují tuto výzvu s důrazem:

„Web byl vytvořen pro lidské oči; nyní je přestavován pro strojové čtenáře.“

S rostoucí popularitou agentů se otázka posouvá od toho, jaké informace existují online, k tomu, co si o nich budou systémy umělé inteligence myslet. Zda se tvůrci politik, vývojáři a bezpečnostní výzkumníci dokážou koordinovat dostatečně rychle, aby na tuto otázku odpověděli dříve, než se ve velkém měřítku objeví reálné zneužití, zůstává otevřenou otázkou.

Štítky v tomto článku

Artificial intelligence (AI)cybersecurity Google Security

Výběry her Bitcoin

Betpanda

Recenze Získat Bonus

100% Bonus až do 1 BTC + 10% Týdenní Cashback Bez Sázky

Cryptorino

Recenze Získat Bonus

100% Bonus Až Do 1 BTC + 10% Týdenní Cashback

Playbet.io

Recenze Získat Bonus

130% až do 2 500 USDT + 200 Volných Točení + 20% Týdenní Cashback Bez Sázky

Parimatch

Recenze Získat Bonus

1000% Vítací Bonus + Bezplatná Sázka až do 1 BTC

Cloudbet

Recenze Získat Bonus

Až do 2 500 USDT + 150 Volných Točení + Až 30% Rakeback

BC.Game

Recenze Získat Bonus

470% Bonus až do $500 000 + 400 Volných Točení + 20% Rakeback

Stake

Recenze Získat Bonus

3,5% Rakeback při Každé Sázce + Týdenní Losování

Vave

Recenze Získat Bonus

425% až do 5 BTC + 100 Volných Točení

Punkz

Recenze Získat Bonus

100% až do $20K + Denní Rakeback

Článek společnosti Deepmind s názvem „AI Agent Traps“ popisuje, jak by hackeři mohli zneužít agenty umělé inteligence proti uživatelům

Článek Deepmind: Agenty AI lze unést pomocí otrávené paměti a neviditelných HTML příkazů

Výzkumníci tvrdí, že zabezpečení agentů AI vyžaduje více než jen technická řešení

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Společnost Anthropic omezuje přístup k agentu Claude v souvislosti s boomem automatizace pomocí umělé inteligence v kryptoměnovém sektoru

Štítky v tomto článku

Výběry her Bitcoin

Nejlepší krypto burzy

Nejlepší bitcoinové burzy

Nejlepší P2P burzy

Zobrazit všechny recenze burz...

Burzy

Peněženky

Hazardní hry

Společnost ViaBTC představuje řešení úvěrů zajištěných kolaterálem, která pomáhají zvládat rozmanité tržní podmínky

MEXC začleňuje USD1 do komplexní infrastruktury pro uživatele po celém světě

Společnost Safe spouští beta verzi Safenet, díky níž budou držitelé tokenů SAFE hrát důležitou roli v zabezpečení sítě

Adrian Wall z organizace Digital Sovereignty Alliance hovoří o tokenizaci na konferenci Penn Blockchain Conference 2026

Bitget přináší kryptoměny do každodenních výdajů díky uvedení karty Bitget Card na trh v regionu APAC

Latam Insights: Global Pix a Mercado Libre ukončují projekt Token