NewsОпубликовано:5 апр. 2026 г., 23:45

В статье Deepmind «AI Agent Traps» описывается, как хакеры могут использовать ИИ-агентов в качестве оружия против пользователей

Исследователи из Google DeepMind опубликовали первую систематическую классификацию, описывающую, как вредоносный веб-контент может манипулировать автономными ИИ-агентами, захватывать их контроль и использовать против их собственных пользователей.

АВТОР

Jamie Redman

Опубликовано: 5 апр. 2026 г., 23:45

В статье Deepmind «AI Agent Traps» описывается, как хакеры могут использовать ИИ-агентов в качестве оружия против пользователей

Основные выводы:

">Исследователи Google Deepmind выделили 6 категорий ловушек для ИИ-агентов, при этом успешность внедрения контента достигала 86%.
">Ловушки для управления поведением, нацеленные на Microsoft M365 Copilot, достигли 100% успеха в выводе данных в ходе задокументированных тестов.
DeepMind призывает к внедрению методов противоборческого обучения, сканеров контента во время выполнения и новых веб-стандартов для обеспечения безопасности агентов к 2026 году.

Статья Deepmind: Агенты ИИ могут быть взломаны с помощью зараженной памяти и невидимых HTML-команд

Статья под названием «Ловушки для ИИ-агентов» была написана Матией Франклином, Ненадом Томасевым, Джулианом Джейкобсом, Джоэлом З. Лейбо и Саймоном Осиндеро, все из которых связаны с Google Deepmind, и опубликована на SSRN в конце марта 2026 года. Она появляется в то время, когда компании стремятся развернуть ИИ-агентов, способных просматривать веб-страницы, читать электронную почту, выполнять транзакции и создавать субагентов без непосредственного контроля со стороны человека.

Исследователи утверждают, что эти возможности также являются уязвимостью. «Изменяя среду, а не модель, — говорится в статье, — ловушка обращает собственные возможности агента против него самого».

В рамках статьи выделено в общей сложности шесть категорий атак, сгруппированных в зависимости от того, на какую часть работы агента они нацелены. Ловушки введения контента используют разрыв между тем, что человек видит на веб-странице, и тем, что ИИ-агент анализирует в базовом HTML, CSS и метаданных.

Инструкции, скрытые в HTML-комментариях, тегах доступности или стилизованном невидимом тексте, никогда не появляются перед человеческими рецензентами, но регистрируются агентами как легитимные команды. Тестирование WASP показало, что простые, написанные человеком вставки подсказок, встроенные в веб-контент, частично захватывают агентов в 86% протестированных сценариев.

Ловушки семантической манипуляции работают иначе. Вместо вставки команд они насыщают текст фреймированием, сигналами авторитетности или эмоционально заряженным языком, чтобы исказить логику агента. Крупные языковые модели (LLM) демонстрируют те же предвзятости в отношении анкерирования и фреймирования, которые влияют на человеческое познание, а это означает, что перефразирование идентичных фактов может привести к радикально разным результатам агента.

Ловушки когнитивного состояния идут дальше, заражая базы данных поиска, которые агенты используют для памяти. Исследования, цитируемые в статье, показывают, что вставка менее нескольких оптимизированных документов в базу знаний может надежно перенаправить ответы агента на целевые запросы, причем некоторые показатели успешности атак превышают 80% при загрязнении данных менее 0,1%.

Ловушки поведенческого контроля обходят тонкости и нацелены непосредственно на уровень действий агента. К ним относятся встроенные последовательности «джейлбрейка», которые после загрузки переопределяют настройки безопасности; команды похищения данных, которые перенаправляют конфиденциальную информацию пользователя на конечные точки, контролируемые злоумышленником; а также ловушки создания дочерних агентов, которые принуждают родительский агент создавать скомпрометированные дочерние агенты.

В статье описан случай с Microsoft M365 Copilot, когда одно специально сформированное электронное письмо заставило систему обойти внутренние классификаторы и передать весь свой привилегированный контекст на конечную точку, контролируемую злоумышленником. Системные ловушки предназначены для одновременного вывода из строя целых сетей агентов, а не отдельных систем.

К ним относятся атаки перегрузки, которые синхронизируют агентов для исчерпывающего спроса на ограниченные ресурсы, каскады взаимозависимости, смоделированные на основе «Flash Crash» фондового рынка 2010 года, и ловушки композиционных фрагментов, которые рассеивают вредоносную полезную нагрузку по множеству безобидно выглядящих источников, которые воссоздают полноценную атаку только при агрегировании.

«Засеивание среды входными данными, предназначенными для вызова сбоев на макроуровне посредством коррелированного поведения агентов», — объясняется в статье Google Deepmind, — становится все более опасным по мере того, как экосистемы моделей ИИ становятся более однородными. Финансовый и криптовалютный секторы подвергаются прямой угрозе, учитывая, насколько глубоко алгоритмические агенты встроены в торговую инфраструктуру.

Ловушки «человек в цикле» дополняют эту классификацию, нацеливаясь не на самих агентов, а на человеческих супервизоров, наблюдающих за ними. Скомпрометированный агент может генерировать выводные данные, спроектированные так, чтобы вызвать усталость от принятия решений, представлять технически сложные сводки, которые неспециалист одобрил бы без тщательного изучения, или вставлять фишинговые ссылки, выглядящие как легитимные рекомендации. Исследователи описывают эту категорию как недостаточно изученную, но ожидаемую к росту по мере масштабирования гибридных систем «человек-ИИ».

Исследователи утверждают, что для обеспечения безопасности ИИ-агентов требуется нечто большее, чем технические исправления

В статье эти шесть категорий не рассматриваются изолированно. Отдельные ловушки могут быть соединены в цепочку, наслоены на несколько источников или спроектированы так, чтобы активироваться только при определенных будущих условиях. Каждый агент, протестированный в ходе различных исследований «красной команды», упомянутых в статье, был взломан по крайней мере один раз, в некоторых случаях выполняя незаконные или вредоносные действия.

Генеральный директор OpenAI Сэм Альтман и другие ранее уже указывали на риски предоставления агентам неограниченного доступа к чувствительным системам, но эта статья представляет собой первую структурированную карту того, как именно эти риски материализуются на практике. Исследователи DeepMind призывают к скоординированным действиям в трех областях.

С технической точки зрения они рекомендуют противоборческое обучение на этапе разработки модели, сканеры контента во время выполнения, фильтры источников перед поступлением данных и мониторы вывода, способные приостанавливать работу агента в середине задачи при обнаружении аномального поведения. На уровне экосистемы они выступают за новые веб-стандарты, которые позволили бы веб-сайтам помечать контент, предназначенный для использования ИИ, а также за системы репутации, оценивающие надежность доменов.

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

4 апреля компания Anthropic прекратила предоставление абонентского доступа к Claude для Openclaw, в результате чего пользователи криптовалютных ИИ-агентов перешли на оплату по факту использования. read more.

Читать

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

Читать

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

Читать

С юридической точки зрения они выявляют пробел в ответственности: когда взломанный агент совершает финансовое преступление, существующие правовые рамки не дают четкого ответа на вопрос, на кого ложится ответственность — на оператора агента, поставщика модели или владельца домена. Исследователи формулируют эту проблему с особой серьезностью:

«Веб был создан для человеческого глаза; сейчас он перестраивается для машинного чтения».

По мере ускорения внедрения агентов вопрос смещается с того, какая информация существует в Интернете, к тому, во что заставят поверить системы ИИ. Остается открытым вопрос, смогут ли политики, разработчики и исследователи в области безопасности скоординировать свои действия достаточно быстро, чтобы ответить на этот вопрос до того, как в реальном мире начнут массово появляться уязвимости.

Теги в этой статье

Artificial intelligence (AI)cybersecurity Google Security

Игровые выборы Bitcoin

Betpanda

Обзор Получить Бонус

100% Бонус до 1 BTC + 10% Еженедельный Кэшбэк без Отыгрыша

Cryptorino

Обзор Получить Бонус

100% Бонус До 1 BTC + 10% Еженедельный Кэшбэк

Playbet.io

Обзор Получить Бонус

130% до 2 500 USDT + 200 Бесплатных Вращений + 20% Еженедельный Кэшбэк без Отыгрыша

Parimatch

Обзор Получить Бонус

1000% Приветственный Бонус + Бесплатная Ставка до 1 BTC

Cloudbet

Обзор Получить Бонус

До 2 500 USDT + 150 Бесплатных Вращений + До 30% Рейкбэка

BC.Game

Обзор Получить Бонус

470% Бонус до $500 000 + 400 Бесплатных Вращений + 20% Рейкбэка

Stake

Обзор Получить Бонус

3,5% Рейкбэка на Каждую Ставку + Еженедельные Розыгрыши

Vave

Обзор Получить Бонус

425% до 5 BTC + 100 Бесплатных Вращений

Punkz

Обзор Получить Бонус

100% до $20K + Ежедневный Рейкбэк

В статье Deepmind «AI Agent Traps» описывается, как хакеры могут использовать ИИ-агентов в качестве оружия против пользователей

Статья Deepmind: Агенты ИИ могут быть взломаны с помощью зараженной памяти и невидимых HTML-команд

Исследователи утверждают, что для обеспечения безопасности ИИ-агентов требуется нечто большее, чем технические исправления

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

Anthropic ограничивает доступ к агенту Claude на фоне бурного роста автоматизации с помощью ИИ в криптовалютной сфере

Теги в этой статье

Игровые выборы Bitcoin

Лучшие криптобиржи

Лучшие биткоин-биржи

Лучшие P2P-биржи

Посмотреть все обзоры бирж...

Биржи

Кошельки

Азартные игры

ViaBTC представляет решения по кредитованию под залог, позволяющие адаптироваться к различным рыночным условиям

MEXC интегрирует USD1 в комплексную инфраструктуру для пользователей по всему миру

Safe запускает бета-версию Safenet, предоставляя держателям токенов SAFE возможность участвовать в обеспечении безопасности сети

Эдриан Уолл из Digital Sovereignty Alliance выступит с докладом о токенизации на конференции Penn Blockchain Conference 2026

Bitget делает криптовалюту частью повседневных расходов, запустив карту Bitget Card в Азиатско-Тихоокеанском регионе

Latam Insights: Global Pix и Mercado Libre прекращают выпуск токенов