Các nhà nghiên cứu của Google DeepMind đã công bố khung phân loại hệ thống đầu tiên ghi nhận cách nội dung web độc hại có thể thao túng, chiếm quyền điều khiển và biến các tác nhân AI tự động thành công cụ tấn công nhằm vào chính người dùng của chúng.
Bài báo “AI Agent Traps” của DeepMind phân tích cách các hacker có thể biến các tác nhân AI thành công cụ tấn công người dùng

Điểm chính:
- ">Các nhà nghiên cứu của Google DeepMind đã xác định 6 loại bẫy tác nhân AI, với tỷ lệ thành công trong việc chèn nội dung lên tới 86%.
- ">Các bẫy kiểm soát hành vi nhắm vào Microsoft M365 Copilot đã đạt 10/10 trường hợp rò rỉ dữ liệu trong các thử nghiệm được ghi nhận.
- Deepmind kêu gọi áp dụng đào tạo đối kháng, trình quét nội dung thời gian chạy và các tiêu chuẩn web mới để bảo mật các tác nhân vào năm 2026.
Bài báo của Deepmind: Các tác nhân AI có thể bị chiếm quyền điều khiển thông qua bộ nhớ bị nhiễm độc và các lệnh HTML ẩn
Bài báo có tiêu đề "AI Agent Traps" do Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo và Simon Osindero – tất cả đều thuộc Google Deepmind – đồng tác giả và được đăng trên SSRN vào cuối tháng 3 năm 2026. Bài báo ra mắt trong bối cảnh các công ty đang đua nhau triển khai các tác nhân AI có khả năng duyệt web, đọc email, thực hiện giao dịch và tạo ra các tác nhân con mà không cần sự giám sát trực tiếp của con người.
Các nhà nghiên cứu lập luận rằng những khả năng này cũng là một rủi ro. "Bằng cách thay đổi môi trường thay vì mô hình," bài báo nêu rõ, "bẫy biến chính khả năng của tác nhân thành vũ khí chống lại nó."
Khung phân tích của bài báo xác định tổng cộng sáu loại tấn công, được tổ chức theo phần hoạt động của tác nhân mà chúng nhắm đến. Bẫy Tiêm Chèn Nội Dung khai thác khoảng cách giữa những gì con người nhìn thấy trên trang web và những gì tác nhân AI phân tích trong mã HTML, CSS và metadata cơ bản.
Các lệnh ẩn trong bình luận HTML, thẻ truy cập hoặc văn bản được định dạng ẩn không bao giờ hiển thị cho người kiểm duyệt nhưng lại được tác nhân nhận diện là lệnh hợp lệ. Bộ dữ liệu WASP phát hiện rằng việc tiêm chèn lời nhắc đơn giản do con người viết, được nhúng trong nội dung web, có thể chiếm quyền điều khiển một phần các tác nhân trong lên đến 86% các tình huống được thử nghiệm.
Bẫy thao túng ngữ nghĩa hoạt động theo cách khác. Thay vì chèn lệnh, chúng bão hòa văn bản bằng các yếu tố định hướng, tín hiệu uy tín hoặc ngôn ngữ mang tính cảm xúc để làm sai lệch cách thức suy luận của tác nhân. Các mô hình ngôn ngữ lớn (LLMs) thể hiện những thiên lệch về định hướng và khung tham chiếu tương tự như những gì ảnh hưởng đến nhận thức con người, nghĩa là việc diễn đạt lại các sự thật giống hệt nhau có thể tạo ra các kết quả đầu ra của tác nhân hoàn toàn khác biệt.
Bẫy Trạng thái Nhận thức (Cognitive State Traps) đi xa hơn bằng cách đầu độc các cơ sở dữ liệu truy xuất mà các tác nhân sử dụng để lưu trữ ký ức. Nghiên cứu được trích dẫn trong bài báo cho thấy việc chèn ít hơn một vài tài liệu được tối ưu hóa vào cơ sở kiến thức có thể đáng tin cậy chuyển hướng phản hồi của tác nhân đối với các truy vấn mục tiêu, với tỷ lệ thành công của một số cuộc tấn công vượt quá 80% ngay cả khi tỷ lệ ô nhiễm dữ liệu dưới 0,1%.
Bẫy Kiểm soát Hành vi bỏ qua sự tinh tế và nhắm trực tiếp vào lớp hành động của tác nhân. Chúng bao gồm các chuỗi thoát khỏi hệ thống được nhúng sẵn, vô hiệu hóa cơ chế an toàn sau khi được nạp vào; các lệnh trích xuất dữ liệu chuyển hướng thông tin nhạy cảm của người dùng đến các điểm cuối do kẻ tấn công kiểm soát; và các bẫy tạo tác nhân con ép buộc tác nhân cha phải khởi tạo các tác nhân con bị xâm nhập.
Bài báo ghi chép một trường hợp liên quan đến Microsoft M365 Copilot, trong đó một email được thiết kế đặc biệt đã khiến hệ thống bỏ qua các bộ phân loại nội bộ và rò rỉ toàn bộ bối cảnh đặc quyền của mình đến một điểm cuối do kẻ tấn công kiểm soát. Các bẫy hệ thống được thiết kế để làm sập toàn bộ mạng lưới các tác nhân cùng lúc thay vì các hệ thống riêng lẻ.
Các bẫy này bao gồm các cuộc tấn công tắc nghẽn khiến các tác nhân đồng bộ hóa để tạo ra nhu cầu quá tải đối với tài nguyên hạn chế, các chuỗi phản ứng dây chuyền dựa trên sự phụ thuộc lẫn nhau mô phỏng theo sự sụp đổ thị trường chứng khoán năm 2010 (Flash Crash), và các bẫy phân mảnh kết hợp phân tán tải trọng độc hại qua nhiều nguồn trông vô hại, chỉ tái tạo thành một cuộc tấn công hoàn chỉnh khi được tổng hợp lại.
"Gieo rắc môi trường với các đầu vào được thiết kế để kích hoạt các sự cố cấp vĩ mô thông qua hành vi tương quan của các tác nhân," bài báo của Google DeepMind giải thích, trở nên ngày càng nguy hiểm khi hệ sinh thái mô hình AI trở nên đồng nhất hơn. Các lĩnh vực tài chính và tiền điện tử đối mặt với rủi ro trực tiếp do các tác nhân thuật toán được nhúng sâu trong cơ sở hạ tầng giao dịch.
Các "bẫy Human-in-the-Loop" hoàn thiện hệ thống phân loại bằng cách nhắm vào các giám sát viên con người đang theo dõi các tác nhân thay vì chính các tác nhân đó. Một tác nhân bị xâm nhập có thể tạo ra các đầu ra được thiết kế để gây ra "mệt mỏi trong việc phê duyệt", trình bày các tóm tắt kỹ thuật phức tạp mà người không chuyên có thể phê duyệt mà không kiểm tra kỹ, hoặc chèn các liên kết lừa đảo trông giống như các đề xuất hợp lệ. Các nhà nghiên cứu mô tả danh mục này là chưa được khám phá đầy đủ nhưng dự kiến sẽ phát triển khi các hệ thống lai giữa con người và AI mở rộng quy mô.
Các nhà nghiên cứu cho rằng việc bảo mật các tác nhân AI đòi hỏi nhiều hơn các biện pháp khắc phục kỹ thuật
Bài báo không xem sáu danh mục này là tách biệt. Các bẫy riêng lẻ có thể được kết nối, xếp lớp qua nhiều nguồn, hoặc được thiết kế để kích hoạt chỉ dưới các điều kiện cụ thể trong tương lai. Mọi tác nhân được thử nghiệm trong các nghiên cứu red-teaming được trích dẫn trong bài báo đều bị xâm nhập ít nhất một lần, trong một số trường hợp thực hiện các hành động bất hợp pháp hoặc gây hại.
CEO OpenAI Sam Altman và những người khác trước đây đã cảnh báo về rủi ro khi cho phép các tác nhân truy cập không kiểm soát vào các hệ thống nhạy cảm, nhưng bài báo này cung cấp bản đồ cấu trúc đầu tiên về cách những rủi ro đó hiện thực hóa trong thực tế. Các nhà nghiên cứu của DeepMind kêu gọi một phản ứng phối hợp bao trùm ba lĩnh vực.
Về mặt kỹ thuật, họ khuyến nghị đào tạo đối kháng trong quá trình phát triển mô hình, các trình quét nội dung thời gian chạy, bộ lọc nguồn trước khi nhập dữ liệu và các công cụ giám sát đầu ra có thể tạm dừng tác nhân giữa nhiệm vụ nếu phát hiện hành vi bất thường. Ở cấp độ hệ sinh thái, họ ủng hộ các tiêu chuẩn web mới cho phép các trang web đánh dấu nội dung dành cho AI tiêu thụ và các hệ thống đánh giá uy tín để chấm điểm độ tin cậy của tên miền.

Anthropic hạn chế quyền truy cập vào hệ thống Claude trong bối cảnh làn sóng tự động hóa AI đang bùng nổ trong lĩnh vực tiền điện tử
Ngày 4 tháng 4, Anthropic đã ngừng cung cấp quyền truy cập theo gói đăng ký Claude cho Openclaw, buộc người dùng các tác nhân AI tiền điện tử phải chuyển sang hình thức thanh toán theo lượt sử dụng. read more.
Đọc ngay
Anthropic hạn chế quyền truy cập vào hệ thống Claude trong bối cảnh làn sóng tự động hóa AI đang bùng nổ trong lĩnh vực tiền điện tử
Ngày 4 tháng 4, Anthropic đã ngừng cung cấp quyền truy cập theo gói đăng ký Claude cho Openclaw, buộc người dùng các tác nhân AI tiền điện tử phải chuyển sang hình thức thanh toán theo lượt sử dụng. read more.
Đọc ngay
Anthropic hạn chế quyền truy cập vào hệ thống Claude trong bối cảnh làn sóng tự động hóa AI đang bùng nổ trong lĩnh vực tiền điện tử
Đọc ngayNgày 4 tháng 4, Anthropic đã ngừng cung cấp quyền truy cập theo gói đăng ký Claude cho Openclaw, buộc người dùng các tác nhân AI tiền điện tử phải chuyển sang hình thức thanh toán theo lượt sử dụng. read more.
Về mặt pháp lý, họ xác định một lỗ hổng về trách nhiệm: khi một tác nhân bị chiếm quyền điều khiển thực hiện tội phạm tài chính, các khung pháp lý hiện tại không đưa ra câu trả lời rõ ràng về việc trách nhiệm thuộc về người điều hành tác nhân, nhà cung cấp mô hình hay chủ sở hữu miền. Các nhà nghiên cứu đặt vấn đề này với sự cân nhắc kỹ lưỡng:
"Web được xây dựng cho con người; giờ đây nó đang được xây dựng lại cho máy đọc."
Khi việc áp dụng các tác nhân ngày càng gia tăng, câu hỏi chuyển từ "thông tin nào tồn tại trực tuyến" sang "các hệ thống AI sẽ được lập trình để tin tưởng điều gì về nó". Việc các nhà hoạch định chính sách, nhà phát triển và nhà nghiên cứu bảo mật có thể phối hợp kịp thời để trả lời câu hỏi đó trước khi các cuộc tấn công thực tế diễn ra trên quy mô lớn vẫn là một ẩn số.









