NewsОпубліковано:5 квіт. 2026 р., 23:45

У статті Deepmind «AI Agent Traps» описано, як хакери можуть використовувати агентів штучного інтелекту проти користувачів

Дослідники Google DeepMind опублікували першу систематичну модель, яка описує, як шкідливий веб-контент може маніпулювати автономними агентами штучного інтелекту, захоплювати їх під свій контроль та використовувати проти їхніх власних користувачів.

АВТОР

Jamie Redman

ПОДІЛИТИСЯ

Опубліковано: 5 квіт. 2026 р., 23:45

У статті Deepmind «AI Agent Traps» описано, як хакери можуть використовувати агентів штучного інтелекту проти користувачів

Основні висновки:

">Дослідники Google Deepmind визначили 6 категорій пасток для агентів ШІ, при цьому рівень успішності введення контенту досяг 86%.
">Пастки для контролю поведінки, націлені на Microsoft M365 Copilot, досягли 100% витоку даних у задокументованих тестах.
Deepmind закликає до впровадження суперечливого навчання, сканерів контенту під час виконання та нових веб-стандартів для забезпечення безпеки агентів до 2026 року.

Стаття Deepmind: Агенти ШІ можуть бути захоплені через отруєну пам'ять та невидимі HTML-команди

Стаття під назвою «Пастки для агентів ШІ» була написана Матією Франкліном, Ненадом Томасевим, Джуліаном Джейкобсом, Джоелом З. Лейбо та Саймоном Осіндеро, які всі пов'язані з Google Deepmind, і опублікована на SSRN наприкінці березня 2026 року. Вона з'являється в той час, коли компанії поспішають розгорнути агентів ШІ, здатних переглядати веб-сторінки, читати електронні листи, виконувати транзакції та створювати субагентів без прямого нагляду людини.

Дослідники стверджують, що ці можливості також є ризиком. «Змінюючи середовище, а не модель, — йдеться у статті, — пастка використовує власні можливості агента проти нього самого».

У статті визначено загалом шість категорій атак, згрупованих за тим, на яку частину роботи агента вони спрямовані. Пастки введення контенту використовують розбіжність між тим, що бачить людина на веб-сторінці, і тим, що аналізує агент ШІ в базовому HTML, CSS та метаданих.
Інструкції, приховані в HTML-коментарях, тегах доступності або стильовому невидимому тексті, ніколи не з’являються перед людськими рецензентами, але реєструються як легітимні команди для агентів. Тест WASP виявив, що прості, написані людиною вставки підказок, вбудовані у веб-контент, частково захоплюють контроль над агентами у 86% протестованих сценаріїв.

Пастки семантичної маніпуляції працюють інакше. Замість введення команд вони насичують текст фреймінгом, сигналами авторитету або емоційно зарядженою мовою, щоб спотворити міркування агента. Великі мовні моделі (LLM) демонструють ті самі упередження щодо закріплення та фреймінгу, що впливають на людське пізнання, а це означає, що перефразування ідентичних фактів може призвести до кардинально різних результатів роботи агента.

Пастки когнітивного стану йдуть далі, отруюючи бази даних, які агенти використовують для пам'яті. Дослідження, цитоване в статті, показує, що введення менше ніж кількох оптимізованих документів у базу знань може надійно перенаправити відповіді агента на цільові запити, причому деякі показники успішності атак перевищують 80% при забрудненні даних менше ніж на 0,1%.

Пастки контролю поведінки оминають тонкощі та націлені безпосередньо на рівень дій агента. До них належать вбудовані послідовності «джейлбрейку», які після завантаження замінюють вирівнювання безпеки; команди витоку даних, що перенаправляють конфіденційну інформацію користувача на контрольовані зловмисником кінцеві точки; а також пастки створення субагентів, які змушують батьківського агента створювати скомпрометованих дочірніх агентів.

У статті описано випадок із Microsoft M365 Copilot, де один спеціально сформований електронний лист змусив систему обійти внутрішні класифікатори та виточити весь свій привілейований контекст на контрольований зловмисником кінцевий пункт. Системні пастки призначені для одночасного виведення з ладу цілих мереж агентів, а не окремих систем.

До них належать атаки перевантаження, які синхронізують агентів у вичерпний попит на обмежені ресурси, каскади взаємозалежності, змодельовані на прикладі «флеш-краху» фондового ринку 2010 року, та композиційні фрагментні пастки, які розкидають шкідливий вантаж по декількох джерелах, що виглядають нешкідливими, які відтворюють повну атаку лише при об’єднанні.

«Заповнення середовища вхідними даними, призначеними для викликання збоїв на макрорівні через корельовану поведінку агентів», — пояснюється в статті Google Deepmind, — стає все більш небезпечним у міру того, як екосистеми моделей ШІ стають більш однорідними. Фінансовий та криптосектори наражаються на пряму небезпеку, враховуючи, наскільки глибоко алгоритмічні агенти вбудовані в торговельну інфраструктуру.

Пастки «людина в циклі» доповнюють класифікацію, націлюючись на людських супервізорів, які стежать за агентами, а не на самих агентів. Зламаний агент може генерувати вихідні дані, розроблені для викликання втоми від затвердження, подавати технічно насичені резюме, які нефахівець затвердить без ретельного вивчення, або вставляти фішингові посилання, що виглядають як легітимні рекомендації. Дослідники описують цю категорію як недостатньо досліджену, але очікують її зростання у міру розширення гібридних систем «людина-ШІ».

Дослідники стверджують, що для захисту агентів ШІ потрібно більше, ніж технічні виправлення

У статті ці шість категорій не розглядаються як ізольовані. Окремі пастки можуть бути з'єднані між собою, розташовані у декількох джерелах або розроблені так, щоб активуватися лише за певних майбутніх умов. Кожен агент, протестований у різних дослідженнях «червоної команди», на які посилається стаття, був зламаний принаймні один раз, у деяких випадках виконуючи незаконні або шкідливі дії.

Генеральний директор OpenAI Сем Альтман та інші раніше вказували на ризики надання агентам необмеженого доступу до чутливих систем, але ця стаття надає першу структуровану карту того, як саме ці ризики матеріалізуються на практиці. Дослідники Deepmind закликають до скоординованої реакції, що охоплює три сфери.

З технічної точки зору вони рекомендують суперечливе навчання під час розробки моделі, сканери вмісту під час виконання, фільтри джерел перед введенням даних та монітори виводу, які можуть призупинити роботу агента посеред завдання, якщо буде виявлено аномальну поведінку. На рівні екосистеми вони виступають за нові веб-стандарти, які дозволять веб-сайтам позначати вміст, призначений для споживання ШІ, та системи репутації, що оцінюють надійність домену.

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

4 квітня компанія Anthropic припинила доступ за передплатою до Openclaw для користувачів Claude, змусивши користувачів крипто-ШІ-агентів перейти на оплату за фактичним використанням. read more.

Читати

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Читати

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Читати

З юридичної точки зору вони виявляють прогалину в відповідальності: коли викрадений агент скоює фінансовий злочин, існуючі рамки не дають чіткої відповіді на питання, чи відповідальність покладається на оператора агента, постачальника моделі чи власника домену. Дослідники підкреслюють важливість цього виклику:

«Веб був створений для людського ока; зараз його перебудовують для машинного зчитування».

У міру прискорення впровадження агентів питання зміщується з того, яка інформація існує в Інтернеті, на те, що системи ШІ будуть змушені вважати про неї. Чи зможуть політики, розробники та дослідники в галузі безпеки скоординувати свої дії достатньо швидко, щоб відповісти на це питання до того, як реальні зловживання набудуть масштабного характеру, залишається відкритою змінною.

Теги в цій статті

Artificial intelligence (AI)cybersecurity Google Security

Ігрові вибірки Bitcoin

Betpanda

Огляд Отримати Бонус

100% Бонус до 1 BTC + 10% Тижневий Кешбек без Відіграшу

Cryptorino

Огляд Отримати Бонус

100% Бонус До 1 BTC + 10% Тижневий Кешбек

Playbet.io

Огляд Отримати Бонус

130% до 2 500 USDT + 200 Безкоштовних Обертів + 20% Тижневий Кешбек без Відіграшу

Parimatch

Огляд Отримати Бонус

1000% Вітальний Бонус + Безкоштовна Ставка до 1 BTC

Cloudbet

Огляд Отримати Бонус

До 2 500 USDT + 150 Безкоштовних Обертів + До 30% Рейкбеку

BC.Game

Огляд Отримати Бонус

470% Бонус до $500 000 + 400 Безкоштовних Обертів + 20% Рейкбеку

Stake

Огляд Отримати Бонус

3,5% Рейкбеку на Кожну Ставку + Тижневі Розіграші

Vave

Огляд Отримати Бонус

425% до 5 BTC + 100 Безкоштовних Обертів

Punkz

Огляд Отримати Бонус

100% до $20K + Щоденний Рейкбек

У статті Deepmind «AI Agent Traps» описано, як хакери можуть використовувати агентів штучного інтелекту проти користувачів

Стаття Deepmind: Агенти ШІ можуть бути захоплені через отруєну пам'ять та невидимі HTML-команди

Дослідники стверджують, що для захисту агентів ШІ потрібно більше, ніж технічні виправлення

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Теги в цій статті

Ігрові вибірки Bitcoin

Найкращі криптобіржі

Найкращі біткоїн-біржі

Найкращі P2P-біржі

Переглянути всі огляди бірж...

Біржі

Гаманці

Азартні ігри

ViaBTC презентує рішення з надання кредитів під заставу для адаптації до різноманітних ринкових умов

MEXC інтегрує USD1 у свою комплексну інфраструктуру для користувачів у всьому світі

Safe запускає бета-версію Safenet, надаючи власникам токенів SAFE можливість брати участь у забезпеченні безпеки мережі

Едріан Волл із Digital Sovereignty Alliance виступить з доповіддю про токенізацію на конференції Penn Blockchain 2026

Bitget впроваджує криптовалюту в повсякденні витрати, запустивши картку Bitget у регіоні Азіатсько-Тихоокеанського регіону

Latam Insights: Global Pix та Mercado Libre припиняють випуск токенів