За підтримки
News

У статті Deepmind «AI Agent Traps» описано, як хакери можуть використовувати агентів штучного інтелекту проти користувачів

Дослідники Google DeepMind опублікували першу систематичну модель, яка описує, як шкідливий веб-контент може маніпулювати автономними агентами штучного інтелекту, захоплювати їх під свій контроль та використовувати проти їхніх власних користувачів.

АВТОР
ПОДІЛИТИСЯ
У статті Deepmind «AI Agent Traps» описано, як хакери можуть використовувати агентів штучного інтелекту проти користувачів

Основні висновки:

  • ">Дослідники Google Deepmind визначили 6 категорій пасток для агентів ШІ, при цьому рівень успішності введення контенту досяг 86%.
  • ">Пастки для контролю поведінки, націлені на Microsoft M365 Copilot, досягли 100% витоку даних у задокументованих тестах.
  • Deepmind закликає до впровадження суперечливого навчання, сканерів контенту під час виконання та нових веб-стандартів для забезпечення безпеки агентів до 2026 року.

Стаття Deepmind: Агенти ШІ можуть бути захоплені через отруєну пам'ять та невидимі HTML-команди

Стаття під назвою «Пастки для агентів ШІ» була написана Матією Франкліном, Ненадом Томасевим, Джуліаном Джейкобсом, Джоелом З. Лейбо та Саймоном Осіндеро, які всі пов'язані з Google Deepmind, і опублікована на SSRN наприкінці березня 2026 року. Вона з'являється в той час, коли компанії поспішають розгорнути агентів ШІ, здатних переглядати веб-сторінки, читати електронні листи, виконувати транзакції та створювати субагентів без прямого нагляду людини.

Дослідники стверджують, що ці можливості також є ризиком. «Змінюючи середовище, а не модель, — йдеться у статті, — пастка використовує власні можливості агента проти нього самого».

У статті визначено загалом шість категорій атак, згрупованих за тим, на яку частину роботи агента вони спрямовані. Пастки введення контенту використовують розбіжність між тим, що бачить людина на веб-сторінці, і тим, що аналізує агент ШІ в базовому HTML, CSS та метаданих.
Інструкції, приховані в HTML-коментарях, тегах доступності або стильовому невидимому тексті, ніколи не з’являються перед людськими рецензентами, але реєструються як легітимні команди для агентів. Тест WASP виявив, що прості, написані людиною вставки підказок, вбудовані у веб-контент, частково захоплюють контроль над агентами у 86% протестованих сценаріїв.

Пастки семантичної маніпуляції працюють інакше. Замість введення команд вони насичують текст фреймінгом, сигналами авторитету або емоційно зарядженою мовою, щоб спотворити міркування агента. Великі мовні моделі (LLM) демонструють ті самі упередження щодо закріплення та фреймінгу, що впливають на людське пізнання, а це означає, що перефразування ідентичних фактів може призвести до кардинально різних результатів роботи агента.

Пастки когнітивного стану йдуть далі, отруюючи бази даних, які агенти використовують для пам'яті. Дослідження, цитоване в статті, показує, що введення менше ніж кількох оптимізованих документів у базу знань може надійно перенаправити відповіді агента на цільові запити, причому деякі показники успішності атак перевищують 80% при забрудненні даних менше ніж на 0,1%.

Пастки контролю поведінки оминають тонкощі та націлені безпосередньо на рівень дій агента. До них належать вбудовані послідовності «джейлбрейку», які після завантаження замінюють вирівнювання безпеки; команди витоку даних, що перенаправляють конфіденційну інформацію користувача на контрольовані зловмисником кінцеві точки; а також пастки створення субагентів, які змушують батьківського агента створювати скомпрометованих дочірніх агентів.

У статті описано випадок із Microsoft M365 Copilot, де один спеціально сформований електронний лист змусив систему обійти внутрішні класифікатори та виточити весь свій привілейований контекст на контрольований зловмисником кінцевий пункт. Системні пастки призначені для одночасного виведення з ладу цілих мереж агентів, а не окремих систем.

До них належать атаки перевантаження, які синхронізують агентів у вичерпний попит на обмежені ресурси, каскади взаємозалежності, змодельовані на прикладі «флеш-краху» фондового ринку 2010 року, та композиційні фрагментні пастки, які розкидають шкідливий вантаж по декількох джерелах, що виглядають нешкідливими, які відтворюють повну атаку лише при об’єднанні.

«Заповнення середовища вхідними даними, призначеними для викликання збоїв на макрорівні через корельовану поведінку агентів», — пояснюється в статті Google Deepmind, — стає все більш небезпечним у міру того, як екосистеми моделей ШІ стають більш однорідними. Фінансовий та криптосектори наражаються на пряму небезпеку, враховуючи, наскільки глибоко алгоритмічні агенти вбудовані в торговельну інфраструктуру.

Пастки «людина в циклі» доповнюють класифікацію, націлюючись на людських супервізорів, які стежать за агентами, а не на самих агентів. Зламаний агент може генерувати вихідні дані, розроблені для викликання втоми від затвердження, подавати технічно насичені резюме, які нефахівець затвердить без ретельного вивчення, або вставляти фішингові посилання, що виглядають як легітимні рекомендації. Дослідники описують цю категорію як недостатньо досліджену, але очікують її зростання у міру розширення гібридних систем «людина-ШІ».

Дослідники стверджують, що для захисту агентів ШІ потрібно більше, ніж технічні виправлення

У статті ці шість категорій не розглядаються як ізольовані. Окремі пастки можуть бути з'єднані між собою, розташовані у декількох джерелах або розроблені так, щоб активуватися лише за певних майбутніх умов. Кожен агент, протестований у різних дослідженнях «червоної команди», на які посилається стаття, був зламаний принаймні один раз, у деяких випадках виконуючи незаконні або шкідливі дії.

Генеральний директор OpenAI Сем Альтман та інші раніше вказували на ризики надання агентам необмеженого доступу до чутливих систем, але ця стаття надає першу структуровану карту того, як саме ці ризики матеріалізуються на практиці. Дослідники Deepmind закликають до скоординованої реакції, що охоплює три сфери.

З технічної точки зору вони рекомендують суперечливе навчання під час розробки моделі, сканери вмісту під час виконання, фільтри джерел перед введенням даних та монітори виводу, які можуть призупинити роботу агента посеред завдання, якщо буде виявлено аномальну поведінку. На рівні екосистеми вони виступають за нові веб-стандарти, які дозволять веб-сайтам позначати вміст, призначений для споживання ШІ, та системи репутації, що оцінюють надійність домену.

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

Anthropic обмежує доступ до агента Claude на тлі буму автоматизації за допомогою ШІ у криптосфері

4 квітня компанія Anthropic припинила доступ за передплатою до Openclaw для користувачів Claude, змусивши користувачів крипто-ШІ-агентів перейти на оплату за фактичним використанням. read more.

Читати

З юридичної точки зору вони виявляють прогалину в відповідальності: коли викрадений агент скоює фінансовий злочин, існуючі рамки не дають чіткої відповіді на питання, чи відповідальність покладається на оператора агента, постачальника моделі чи власника домену. Дослідники підкреслюють важливість цього виклику:

«Веб був створений для людського ока; зараз його перебудовують для машинного зчитування».

У міру прискорення впровадження агентів питання зміщується з того, яка інформація існує в Інтернеті, на те, що системи ШІ будуть змушені вважати про неї. Чи зможуть політики, розробники та дослідники в галузі безпеки скоординувати свої дії достатньо швидко, щоб відповісти на це питання до того, як реальні зловживання набудуть масштабного характеру, залишається відкритою змінною.