Исследователи из Google DeepMind опубликовали первую систематическую классификацию, описывающую, как вредоносный веб-контент может манипулировать автономными ИИ-агентами, захватывать их контроль и использовать против их собственных пользователей.
В статье Deepmind «AI Agent Traps» описывается, как хакеры могут использовать ИИ-агентов в качестве оружия против пользователей

Основные выводы:
- ">Исследователи Google Deepmind выделили 6 категорий ловушек для ИИ-агентов, при этом успешность внедрения контента достигала 86%.
- ">Ловушки для управления поведением, нацеленные на Microsoft M365 Copilot, достигли 100% успеха в выводе данных в ходе задокументированных тестов.
- DeepMind призывает к внедрению методов противоборческого обучения, сканеров контента во время выполнения и новых веб-стандартов для обеспечения безопасности агентов к 2026 году.
Статья Deepmind: Агенты ИИ могут быть взломаны с помощью зараженной памяти и невидимых HTML-команд
Статья под названием «Ловушки для ИИ-агентов» была написана Матией Франклином, Ненадом Томасевым, Джулианом Джейкобсом, Джоэлом З. Лейбо и Саймоном Осиндеро, все из которых связаны с Google Deepmind, и опубликована на SSRN в конце марта 2026 года. Она появляется в то время, когда компании стремятся развернуть ИИ-агентов, способных просматривать веб-страницы, читать электронную почту, выполнять транзакции и создавать субагентов без непосредственного контроля со стороны человека.
Исследователи утверждают, что эти возможности также являются уязвимостью. «Изменяя среду, а не модель, — говорится в статье, — ловушка обращает собственные возможности агента против него самого».
В рамках статьи выделено в общей сложности шесть категорий атак, сгруппированных в зависимости от того, на какую часть работы агента они нацелены. Ловушки введения контента используют разрыв между тем, что человек видит на веб-странице, и тем, что ИИ-агент анализирует в базовом HTML, CSS и метаданных.
Инструкции, скрытые в HTML-комментариях, тегах доступности или стилизованном невидимом тексте, никогда не появляются перед человеческими рецензентами, но регистрируются агентами как легитимные команды. Тестирование WASP показало, что простые, написанные человеком вставки подсказок, встроенные в веб-контент, частично захватывают агентов в 86% протестированных сценариев.
Ловушки семантической манипуляции работают иначе. Вместо вставки команд они насыщают текст фреймированием, сигналами авторитетности или эмоционально заряженным языком, чтобы исказить логику агента. Крупные языковые модели (LLM) демонстрируют те же предвзятости в отношении анкерирования и фреймирования, которые влияют на человеческое познание, а это означает, что перефразирование идентичных фактов может привести к радикально разным результатам агента.
Ловушки когнитивного состояния идут дальше, заражая базы данных поиска, которые агенты используют для памяти. Исследования, цитируемые в статье, показывают, что вставка менее нескольких оптимизированных документов в базу знаний может надежно перенаправить ответы агента на целевые запросы, причем некоторые показатели успешности атак превышают 80% при загрязнении данных менее 0,1%.
Ловушки поведенческого контроля обходят тонкости и нацелены непосредственно на уровень действий агента. К ним относятся встроенные последовательности «джейлбрейка», которые после загрузки переопределяют настройки безопасности; команды похищения данных, которые перенаправляют конфиденциальную информацию пользователя на конечные точки, контролируемые злоумышленником; а также ловушки создания дочерних агентов, которые принуждают родительский агент создавать скомпрометированные дочерние агенты.
В статье описан случай с Microsoft M365 Copilot, когда одно специально сформированное электронное письмо заставило систему обойти внутренние классификаторы и передать весь свой привилегированный контекст на конечную точку, контролируемую злоумышленником. Системные ловушки предназначены для одновременного вывода из строя целых сетей агентов, а не отдельных систем.
К ним относятся атаки перегрузки, которые синхронизируют агентов для исчерпывающего спроса на ограниченные ресурсы, каскады взаимозависимости, смоделированные на основе «Flash Crash» фондового рынка 2010 года, и ловушки композиционных фрагментов, которые рассеивают вредоносную полезную нагрузку по множеству безобидно выглядящих источников, которые воссоздают полноценную атаку только при агрегировании.
«Засеивание среды входными данными, предназначенными для вызова сбоев на макроуровне посредством коррелированного поведения агентов», — объясняется в статье Google Deepmind, — становится все более опасным по мере того, как экосистемы моделей ИИ становятся более однородными. Финансовый и криптовалютный секторы подвергаются прямой угрозе, учитывая, насколько глубоко алгоритмические агенты встроены в торговую инфраструктуру.
Ловушки «человек в цикле» дополняют эту классификацию, нацеливаясь не на самих агентов, а на человеческих супервизоров, наблюдающих за ними. Скомпрометированный агент может генерировать выводные данные, спроектированные так, чтобы вызвать усталость от принятия решений, представлять технически сложные сводки, которые неспециалист одобрил бы без тщательного изучения, или вставлять фишинговые ссылки, выглядящие как легитимные рекомендации. Исследователи описывают эту категорию как недостаточно изученную, но ожидаемую к росту по мере масштабирования гибридных систем «человек-ИИ».
Исследователи утверждают, что для обеспечения безопасности ИИ-агентов требуется нечто большее, чем технические исправления
В статье эти шесть категорий не рассматриваются изолированно. Отдельные ловушки могут быть соединены в цепочку, наслоены на несколько источников или спроектированы так, чтобы активироваться только при определенных будущих условиях. Каждый агент, протестированный в ходе различных исследований «красной команды», упомянутых в статье, был взломан по крайней мере один раз, в некоторых случаях выполняя незаконные или вредоносные действия.
Генеральный директор OpenAI Сэм Альтман и другие ранее уже указывали на риски предоставления агентам неограниченного доступа к чувствительным системам, но эта статья представляет собой первую структурированную карту того, как именно эти риски материализуются на практике. Исследователи DeepMind призывают к скоординированным действиям в трех областях.
С технической точки зрения они рекомендуют противоборческое обучение на этапе разработки модели, сканеры контента во время выполнения, фильтры источников перед поступлением данных и мониторы вывода, способные приостанавливать работу агента в середине задачи при обнаружении аномального поведения. На уровне экосистемы они выступают за новые веб-стандарты, которые позволили бы веб-сайтам помечать контент, предназначенный для использования ИИ, а также за системы репутации, оценивающие надежность доменов.

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере
4 апреля компания Anthropic прекратила предоставление абонентского доступа к Claude для Openclaw, в результате чего пользователи криптовалютных ИИ-агентов перешли на оплату по факту использования. read more.
Читать
Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере
4 апреля компания Anthropic прекратила предоставление абонентского доступа к Claude для Openclaw, в результате чего пользователи криптовалютных ИИ-агентов перешли на оплату по факту использования. read more.
Читать
Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере
Читать4 апреля компания Anthropic прекратила предоставление абонентского доступа к Claude для Openclaw, в результате чего пользователи криптовалютных ИИ-агентов перешли на оплату по факту использования. read more.
С юридической точки зрения они выявляют пробел в ответственности: когда взломанный агент совершает финансовое преступление, существующие правовые рамки не дают четкого ответа на вопрос, на кого ложится ответственность — на оператора агента, поставщика модели или владельца домена. Исследователи формулируют эту проблему с особой серьезностью:
«Веб был создан для человеческого глаза; сейчас он перестраивается для машинного чтения».
По мере ускорения внедрения агентов вопрос смещается с того, какая информация существует в Интернете, к тому, во что заставят поверить системы ИИ. Остается открытым вопрос, смогут ли политики, разработчики и исследователи в области безопасности скоординировать свои действия достаточно быстро, чтобы ответить на этот вопрос до того, как в реальном мире начнут массово появляться уязвимости.














