구글 딥마인드 연구진은 악성 웹 콘텐츠가 자율 AI 에이전트를 어떻게 조종하고, 장악하며, 이를 이용해 사용자를 공격하는 수단으로 악용할 수 있는지를 체계적으로 정리한 최초의 프레임워크를 발표했다. 주요 내용:
딥마인드의 논문 ‘AI 에이전트 트랩(AI Agent Traps)’은 해커들이 AI 에이전트를 이용해 사용자를 공격할 수 있는 방법을 제시한다

- ">구글 딥마인드 연구진은 6가지 AI 에이전트 함정 범주를 확인했으며, 콘텐츠 주입 성공률은 86%에 달했습니다.
- ">마이크로소프트 M365 코파일럿을 겨냥한 '행동 제어 함정'은 문서화된 테스트에서 데이터 유출 성공률이 100%를 기록했습니다.
- 딥마인드는 2026년까지 에이전트를 보호하기 위해 적대적 학습, 런타임 콘텐츠 스캐너, 새로운 웹 표준을 도입할 것을 촉구합니다.
딥마인드 논문: AI 에이전트는 오염된 메모리와 보이지 않는 HTML 명령을 통해 탈취될 수 있다
"AI 에이전트 트랩(AI Agent Traps)"이라는 제목의 이 논문은 구글 딥마인드 소속의 마티야 프랭클린(Matija Franklin), 네나드 토마세프(Nenad Tomasev), 줄리안 제이콥스(Julian Jacobs), 조엘 Z. 라이보(Joel Z. Leibo), 사이먼 오신데로(Simon Osindero)가 공동 집필했으며, 2026년 3월 말 SSRN에 게재되었습니다. 이 논문은 기업들이 인간의 직접적인 감독 없이 웹을 탐색하고, 이메일을 읽고, 거래를 실행하며, 하위 에이전트를 생성할 수 있는 AI 에이전트를 서둘러 배포하는 가운데 발표되었습니다.
연구진은 이러한 기능들이 동시에 위험 요소가 될 수 있다고 주장한다. 논문은 "모델이 아닌 환경을 조작함으로써, 이 함정은 에이전트 자신의 능력을 역으로 무기로 삼아 에이전트를 공격한다"고 설명한다. 이 논문의 프레임워크는 공격 대상이 되는 에이전트 운영의 영역에 따라 총 6가지 공격 범주를 식별한다. 콘텐츠 주입 트랩(Content Injection Traps)은 사람이 웹페이지에서 보는 내용과 AI 에이전트가 기본 HTML, CSS, 메타데이터에서 분석하는 내용 사이의 차이를 악용한다. HTML 주석, 접근성 태그, 또는 스타일로 숨겨진 텍스트에 숨겨진 명령어는 인간 검토자에게는 절대 보이지 않지만, 에이전트에게는 정당한 명령으로 인식된다. WASP 벤치마크에 따르면, 웹 콘텐츠에 삽입된 단순한 인간이 작성한 프롬프트 주입만으로도 테스트된 시나리오의 최대 86%에서 에이전트를 부분적으로 장악하는 것으로 나타났다.
의미 조작 트랩은 작동 방식이 다릅니다. 명령어를 주입하는 대신, 텍스트에 프레밍, 권위 신호 또는 감정적인 언어를 과도하게 채워 에이전트의 추론 방식을 왜곡합니다. 대규모 언어 모델(LLM)은 인간의 인지 과정에 영향을 미치는 것과 동일한 앵커링 및 프레밍 편향을 보이며, 이는 동일한 사실을 다른 방식으로 재구성하는 것만으로도 에이전트의 출력 결과가 극적으로 달라질 수 있음을 의미합니다.
인지 상태 트랩은 에이전트가 기억을 위해 사용하는 검색 데이터베이스를 오염시킴으로써 한 단계 더 나아갑니다. 이 논문에서 인용된 연구에 따르면, 지식 기반에 소수의 최적화된 문서만 주입해도 대상 쿼리에 대한 에이전트의 응답을 확실하게 전환할 수 있으며, 데이터 오염률이 0.1% 미만일 때 공격 성공률이 80%를 넘는 경우도 있습니다.
행동 제어 트랩(Behavioural Control Traps)은 미묘한 접근 방식을 생략하고 에이전트의 행동 계층을 직접 겨냥합니다. 여기에는 일단 입력되면 안전 정렬을 무력화하는 내장형 탈옥 시퀀스, 민감한 사용자 정보를 공격자가 제어하는 엔드포인트로 리디렉션하는 데이터 유출 명령, 그리고 부모 에이전트가 손상된 자식 에이전트를 인스턴스화하도록 강요하는 하위 에이전트 생성 트랩이 포함됩니다.
이 논문은 마이크로소프트의 M365 Copilot과 관련된 사례를 기록하고 있는데, 여기서 단 하나의 조작된 이메일이 시스템으로 하여금 내부 분류기를 우회하게 하여 공격자가 제어하는 엔드포인트로 전체 권한 컨텍스트를 유출하게 만들었습니다. 시스템적 트랩은 개별 시스템이 아닌 에이전트 네트워크 전체를 동시에 마비시키도록 설계되었습니다.
여기에는 제한된 자원에 대한 과도한 수요를 유발해 에이전트를 동기화하는 혼잡 공격, 2010년 주식 시장 플래시 크래시(Flash Crash)를 모델로 한 상호 의존성 연쇄 반응, 그리고 악성 페이로드를 여러 개의 무해해 보이는 소스에 분산시켜 집계될 때만 완전한 공격으로 재구성되는 구성적 파편 트랩이 포함됩니다.
구글 딥마인드(Google Deepmind)의 논문은 "상관된 에이전트 행동을 통해 거시적 수준의 장애를 유발하도록 설계된 입력을 환경에 심는 것"이 AI 모델 생태계가 점점 더 동질화됨에 따라 점점 더 위험해지고 있다고 설명합니다. 알고리즘 기반 에이전트가 거래 인프라에 깊이 내재되어 있다는 점을 고려할 때, 금융 및 암호화폐 부문은 직접적인 위험에 노출되어 있습니다.
'휴먼-인-더-루프(Human-in-the-Loop) 트랩'은 에이전트 자체가 아닌 에이전트를 감독하는 인간 관리자를 표적으로 삼아 이 분류 체계를 완성한다. 해킹당한 에이전트는 승인 피로감을 유발하도록 조작된 출력을 생성하거나, 비전문가가 면밀히 검토하지 않고 승인할 만한 기술적으로 난해한 요약문을 제시하거나, 합법적인 추천처럼 보이는 피싱 링크를 삽입할 수 있다. 연구진은 이 범주가 아직 충분히 연구되지 않았으나, 인간-AI 하이브리드 시스템이 확대됨에 따라 증가할 것으로 전망한다.
연구진, "AI 에이전트 보안에는 기술적 해결책 이상의 접근 필요"
이 논문은 이 여섯 가지 범주를 서로 분리된 것으로 다루지 않습니다. 개별 트랩은 연쇄적으로 연결되거나, 여러 출처에 걸쳐 중첩될 수 있으며, 특정 미래 조건에서만 작동하도록 설계될 수도 있습니다. 논문에 인용된 다양한 레드팀 연구에서 테스트된 모든 에이전트는 적어도 한 번 이상 침해되었으며, 일부 경우에는 불법적이거나 유해한 행동을 수행하기도 했습니다.
오픈AI(OpenAI)의 샘 알트만(Sam Altman) CEO를 비롯한 여러 전문가들은 이전에 에이전트에게 민감한 시스템에 대한 무제한 접근 권한을 부여할 경우의 위험을 지적한 바 있으나, 이 논문은 그러한 위험이 실제로 어떻게 구체화되는지에 대한 최초의 체계적인 지도를 제시한다. 딥마인드(DeepMind) 연구진은 세 가지 영역에 걸친 통합적인 대응을 촉구한다.
기술적 측면에서는 모델 개발 단계에서의 적대적 학습, 런타임 콘텐츠 스캐너, 데이터 입력 전 소스 필터, 그리고 비정상적인 행동이 감지될 경우 작업 도중 에이전트를 일시 중지할 수 있는 출력 모니터링 시스템을 권장한다. 생태계 차원에서는 웹사이트가 AI용 콘텐츠를 표시할 수 있도록 하는 새로운 웹 표준과 도메인 신뢰도를 평가하는 평판 시스템을 도입할 것을 주창한다.

암호화폐 업계의 AI 자동화 열풍 속에 앤트로픽, 클로드 에이전트 접근 권한 제한
앤트로픽은 4월 4일 오픈클로(Openclaw)에 대한 클로드(Claude) 구독 서비스를 중단하며, 암호화폐 기반 AI 에이전트 사용자들이 종량제 요금제를 이용하도록 유도했다. read more.
지금 읽기
암호화폐 업계의 AI 자동화 열풍 속에 앤트로픽, 클로드 에이전트 접근 권한 제한
앤트로픽은 4월 4일 오픈클로(Openclaw)에 대한 클로드(Claude) 구독 서비스를 중단하며, 암호화폐 기반 AI 에이전트 사용자들이 종량제 요금제를 이용하도록 유도했다. read more.
지금 읽기
암호화폐 업계의 AI 자동화 열풍 속에 앤트로픽, 클로드 에이전트 접근 권한 제한
지금 읽기앤트로픽은 4월 4일 오픈클로(Openclaw)에 대한 클로드(Claude) 구독 서비스를 중단하며, 암호화폐 기반 AI 에이전트 사용자들이 종량제 요금제를 이용하도록 유도했다. read more.
법적 측면에서는 책임 소재의 공백을 지적합니다. 해킹당한 에이전트가 금융 범죄를 저질렀을 때, 현행 법체계는 책임이 에이전트 운영자, 모델 제공자, 또는 도메인 소유자 중 누구에게 있는지 명확한 답을 제시하지 못합니다. 연구진은 이 문제를 다음과 같이 강조하며 제시합니다:
"웹은 인간의 눈을 위해 구축되었으나, 이제는 기계 독자를 위해 재구축되고 있다."
에이전트 도입이 가속화됨에 따라, 논의의 초점은 온라인에 어떤 정보가 존재하는가에서, AI 시스템이 그 정보에 대해 무엇을 믿게 될 것인가로 옮겨가고 있습니다. 실제 악용 사례가 대규모로 발생하기 전에 정책 입안자, 개발자, 보안 연구원들이 이 질문에 답할 수 있을 만큼 신속하게 협력할 수 있을지는 여전히 미지수입니다.









