สนับสนุนโดย
News

เอกสารวิจัย “กับดักของเอเจนต์ AI” ของ DeepMind อธิบายว่าแฮกเกอร์อาจนำเอเจนต์ AI ไปใช้เป็นอาวุธโจมตีผู้ใช้งานได้อย่างไร

นักวิจัยจาก Google Deepmind ได้เผยแพร่กรอบงานเชิงระบบฉบับแรกที่จัดทำบัญชีว่าเนื้อหาเว็บที่เป็นอันตรายสามารถชักจูง ยึดครอง และทำให้อาวุธของเอเจนต์ AI อัตโนมัติหันกลับมาเล่นงานผู้ใช้ของตนเองได้อย่างไร

เขียนโดย
แชร์
เอกสารวิจัย “กับดักของเอเจนต์ AI” ของ DeepMind อธิบายว่าแฮกเกอร์อาจนำเอเจนต์ AI ไปใช้เป็นอาวุธโจมตีผู้ใช้งานได้อย่างไร

ประเด็นสำคัญ:

  • นักวิจัย Google Deepmind ระบุหมวดหมู่กับดักเอเจนต์ AI 6 ประเภท โดยอัตราความสำเร็จของการฉีดเนื้อหา (content injection) สูงถึง 86%
  • กับดักควบคุมพฤติกรรม (Behavioural Control Traps) ที่มุ่งเป้าไปที่ Microsoft M365 Copilot ทำการลักลอบนำข้อมูลออก (data exfiltration) ได้ 10/10 ในการทดสอบที่มีการบันทึกไว้
  • Deepmind เรียกร้องให้มีการฝึกแบบปฏิปักษ์ (adversarial training) สแกนเนอร์เนื้อหาระหว่างรันไทม์ และมาตรฐานเว็บใหม่เพื่อทำให้เอเจนต์ปลอดภัยภายในปี 2026

งานวิจัย Deepmind: เอเจนต์ AI สามารถถูกยึดครองได้ผ่านหน่วยความจำที่ถูกวางยาพิษ และคำสั่ง HTML ที่มองไม่เห็น

บทความ ที่มีชื่อว่า “AI Agent Traps” เขียนโดย Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo และ Simon Osindero ซึ่งทั้งหมดสังกัด Google Deepmind และถูกโพสต์ลง SSRN ช่วงปลายเดือนมีนาคม 2026 โดยงานวิจัยนี้เกิดขึ้นในช่วงที่บริษัทต่าง ๆ เร่งนำเอเจนต์ AI ไปใช้งานซึ่งสามารถท่องเว็บ อ่านอีเมล ดำเนินธุรกรรม และสร้างซับเอเจนต์ได้โดยไม่มีการกำกับดูแลจากมนุษย์โดยตรง

นักวิจัยโต้แย้งว่าความสามารถเหล่านั้นก็เป็นความเสี่ยงเช่นกัน โดยบทความระบุว่า “ด้วยการปรับเปลี่ยนสภาพแวดล้อมแทนที่จะเป็นตัวโมเดล” “กับดักจะทำให้อาวุธจากความสามารถของเอเจนต์เองหันกลับมาเล่นงานมัน”

กรอบงานของบทความระบุหมวดหมู่การโจมตีทั้งหมด 6 ประเภท โดยจัดตามส่วนใดของการทำงานของเอเจนต์ที่เป็นเป้าหมาย กับดักการฉีดเนื้อหา (Content Injection Traps) ใช้ประโยชน์จากช่องว่างระหว่างสิ่งที่มนุษย์เห็นบนหน้าเว็บกับสิ่งที่ เอเจนต์ AI แยกวิเคราะห์จาก HTML, CSS และเมทาดาตาที่อยู่เบื้องหลัง

คำสั่งที่ซ่อนอยู่ในคอมเมนต์ HTML แท็กเพื่อการเข้าถึง (accessibility tags) หรือข้อความที่ถูกทำให้มองไม่เห็นด้วยสไตล์ จะไม่ปรากฏต่อผู้ตรวจทานที่เป็นมนุษย์ แต่ถูกบันทึกเป็นคำสั่งที่ชอบธรรมสำหรับเอเจนต์ เกณฑ์มาตรฐาน WASP พบว่า การฉีดพรอมป์ต์ แบบเรียบง่ายที่มนุษย์เขียนและฝังในเนื้อหาเว็บ สามารถยึดครองเอเจนต์ได้บางส่วนสูงสุดถึง 86% ของสถานการณ์ที่ทดสอบ

กับดักการบิดเบือนเชิงความหมาย (Semantic Manipulation Traps) ทำงานต่างออกไป แทนที่จะฉีดคำสั่ง พวกมันจะทำให้ข้อความอิ่มตัวด้วยกรอบการนำเสนอ สัญญาณความน่าเชื่อถือ/อำนาจ หรือภาษาที่กระตุ้นอารมณ์ เพื่อบิดเบือนวิธีที่เอเจนต์ให้เหตุผล โมเดลภาษาขนาดใหญ่ (LLMs) แสดงอคติแบบยึดจุดอ้างอิง (anchoring) และอคติจากกรอบการนำเสนอ (framing) เช่นเดียวกับที่ส่งผลต่อการรับรู้ของมนุษย์ ซึ่งหมายความว่าการเขียนข้อเท็จจริงเดียวกันใหม่สามารถทำให้ผลลัพธ์ของเอเจนต์แตกต่างกันอย่างมาก

กับดักสภาวะการรับรู้ (Cognitive State Traps) ไปไกลกว่านั้นด้วยการวางยาพิษฐานข้อมูลดึงคืน (retrieval) ที่เอเจนต์ใช้เป็นหน่วยความจำ งานวิจัยที่อ้างถึงในบทความแสดงว่า การฉีดเอกสารที่ถูกปรับให้เหมาะสมจำนวนน้อยกว่าหนึ่งกำมือเข้าไปในฐานความรู้ สามารถเปลี่ยนทิศทางคำตอบของเอเจนต์สำหรับคำค้นที่กำหนดเป้าหมายได้อย่างสม่ำเสมอ โดยบางการโจมตีมีอัตราความสำเร็จเกิน 80% แม้มีการปนเปื้อนข้อมูลน้อยกว่า 0.1%

กับดักควบคุมพฤติกรรม (Behavioural Control Traps) ไม่เน้นความแนบเนียนและพุ่งตรงไปที่ชั้นการกระทำ (action layer) ของเอเจนต์ ซึ่งรวมถึงลำดับ jailbreak ที่ฝังไว้ซึ่งจะเขียนทับการจัดแนวความปลอดภัย (safety alignment) เมื่อถูกนำเข้า คำสั่งลักลอบนำข้อมูลออกที่เปลี่ยนเส้นทางข้อมูลผู้ใช้ที่อ่อนไหวไปยังปลายทางที่ผู้โจมตีควบคุม และกับดักการสร้างซับเอเจนต์ที่บีบบังคับให้เอเจนต์หลักสร้างเอเจนต์ลูกที่ถูกประนีประนอม

บทความบันทึกกรณีที่เกี่ยวข้องกับ Microsoft M365 Copilot ซึ่งอีเมลที่ถูกสร้างขึ้นเพียงฉบับเดียวทำให้ระบบข้ามตัวจัดประเภทภายในและรั่วไหลบริบทสิทธิพิเศษทั้งหมดของตนไปยังปลายทางที่ผู้โจมตีควบคุม กับดักเชิงระบบ (Systemic Traps) ถูกออกแบบให้ทำให้เครือข่ายเอเจนต์ทั้งระบบล้มเหลวพร้อมกัน มากกว่าที่จะเจาะระบบรายตัว

สิ่งเหล่านี้รวมถึงการโจมตีแบบทำให้เกิดความแออัด (congestion attacks) ที่ซิงโครไนซ์เอเจนต์ให้สร้างความต้องการอย่างหนักต่อทรัพยากรที่มีจำกัด ห่วงโซ่การล้มแบบพึ่งพากัน (interdependence cascades) ที่จำลองจากเหตุการณ์ Flash Crash ของตลาดหุ้นปี 2010 และกับดักเศษส่วนเชิงองค์ประกอบ (compositional fragment traps) ที่กระจายเพย์โหลดอันตรายออกเป็นหลายแหล่งที่ดูเป็นมิตร ซึ่งจะประกอบกลับเป็นการโจมตีเต็มรูปแบบก็ต่อเมื่อถูกรวมเข้าด้วยกัน

“การหว่านอินพุตลงในสภาพแวดล้อมซึ่งถูกออกแบบให้กระตุ้นความล้มเหลวระดับมหภาคผ่านพฤติกรรมของเอเจนต์ที่มีความสัมพันธ์กัน” งานวิจัยของ Google Deepmind อธิบายว่า จะยิ่งอันตรายขึ้นเมื่อระบบนิเวศของโมเดล AI มีความเป็นเนื้อเดียวกันมากขึ้น ภาคการเงินและคริปโตเผชิญความเสี่ยงโดยตรง เนื่องจากเอเจนต์เชิงอัลกอริทึมถูกฝังอยู่ลึกในโครงสร้างพื้นฐานการซื้อขาย

กับดักมนุษย์ในวงจร (Human-in-the-Loop Traps) ปิดท้ายอนุกรมวิธานด้วยการเล็งเป้าไปที่ผู้กำกับดูแลที่เป็นมนุษย์ซึ่งคอยเฝ้าดูเอเจนต์ มากกว่าที่จะโจมตีเอเจนต์โดยตรง เอเจนต์ที่ถูกยึดครองสามารถสร้างผลลัพธ์ที่ถูกออกแบบให้ทำให้เกิดความล้าจากการอนุมัติ (approval fatigue) นำเสนอสาระสรุปเชิงเทคนิคที่หนาแน่นซึ่งผู้ไม่เชี่ยวชาญอาจอนุมัติโดยไม่ตรวจสอบ หรือแทรกลิงก์ฟิชชิงที่ดูเหมือนคำแนะนำที่ถูกต้องตามกฎหมาย นักวิจัยระบุว่าหมวดนี้ยังถูกสำรวจไม่มาก แต่คาดว่าจะเติบโตเมื่อระบบแบบไฮบริดมนุษย์-AI ขยายตัว

นักวิจัยระบุว่า การทำให้เอเจนต์ AI ปลอดภัยต้องการมากกว่าการแก้ไขทางเทคนิค

บทความไม่ได้มองทั้งหกหมวดหมู่นี้ว่าแยกขาดจากกัน กับดักแต่ละชนิดสามารถเชื่อมต่อเป็นโซ่ ซ้อนทับจากหลายแหล่ง หรือถูกออกแบบให้ทำงานเฉพาะภายใต้เงื่อนไขในอนาคตที่กำหนด เอเจนต์ทุกตัวที่ถูกทดสอบในงานศึกษา red-teaming หลายชุดที่อ้างถึงในบทความ ถูกประนีประนอมอย่างน้อยหนึ่งครั้ง และบางกรณีถึงขั้นดำเนินการที่ผิดกฎหมายหรือก่ออันตราย

CEO ของ OpenAI Sam Altman และคนอื่น ๆ เคยส่งสัญญาณเตือนถึงความเสี่ยงของการให้อำนาจเอเจนต์เข้าถึงระบบอ่อนไหวโดยไม่มีการควบคุม แต่บทความนี้ให้แผนที่เชิงโครงสร้างเป็นครั้งแรกว่า ความเสี่ยงเหล่านั้นเกิดขึ้นจริงอย่างไรในทางปฏิบัติ นักวิจัยของ Deepmind เรียกร้องให้มีการตอบสนองแบบประสานกันครอบคลุมสามด้าน

ในด้านเทคนิค พวกเขาแนะนำการฝึกแบบปฏิปักษ์ระหว่างพัฒนาโมเดล สแกนเนอร์เนื้อหาระหว่างรันไทม์ ตัวกรองแหล่งที่มาก่อนการนำเข้า (pre-ingestion source filters) และตัวเฝ้าระวังผลลัพธ์ (output monitors) ที่สามารถระงับเอเจนต์กลางงานได้หากตรวจพบพฤติกรรมผิดปกติ ในระดับระบบนิเวศ พวกเขาสนับสนุนมาตรฐานเว็บใหม่ที่อนุญาตให้เว็บไซต์ทำเครื่องหมายเนื้อหาที่มีไว้สำหรับการบริโภคโดย AI และระบบชื่อเสียงที่ให้คะแนนความน่าเชื่อถือของโดเมน

Anthropic จำกัดการเข้าถึงเอเจนต์ Claude ท่ามกลางกระแสการเติบโตของระบบอัตโนมัติด้วย AI ในวงการคริปโต

Anthropic จำกัดการเข้าถึงเอเจนต์ Claude ท่ามกลางกระแสการเติบโตของระบบอัตโนมัติด้วย AI ในวงการคริปโต

Anthropic ตัดการเข้าถึงการสมัครสมาชิก Claude สำหรับ Openclaw เมื่อวันที่ 4 เมษายน ส่งผลให้ผู้ใช้เอเจนต์ AI ด้านคริปโตต้องเปลี่ยนไปใช้การเรียกเก็บเงินแบบจ่ายตามการใช้งาน read more.

อ่านตอนนี้

ในด้านกฎหมาย พวกเขาระบุช่องว่างด้านความรับผิด: เมื่อเอเจนต์ที่ถูกยึดครองก่ออาชญากรรมทางการเงิน กรอบงานปัจจุบันยังไม่มีคำตอบที่ชัดเจนว่าความรับผิดตกอยู่กับผู้ดำเนินการเอเจนต์ ผู้ให้บริการโมเดล หรือเจ้าของโดเมน นักวิจัยถ่ายทอดความท้าทายนี้ด้วยถ้อยคำที่มีน้ำหนักโดยเจตนา:

“เว็บถูกสร้างขึ้นเพื่อสายตามนุษย์; ตอนนี้มันกำลังถูกสร้างใหม่เพื่อผู้อ่านที่เป็นเครื่องจักร”

เมื่อการนำเอเจนต์ไปใช้เร่งตัวขึ้น คำถามจึงเปลี่ยนจากข้อมูลอะไรที่มีอยู่บนออนไลน์ ไปเป็นว่า ระบบ AI จะถูกทำให้เชื่ออะไรเกี่ยวกับมัน ไม่ว่าผู้กำหนดนโยบาย นักพัฒนา และนักวิจัยด้านความปลอดภัยจะประสานงานกันได้เร็วพอเพื่อรับมือคำถามนั้นก่อนที่การโจมตีในโลกจริงจะมาถึงในวงกว้างหรือไม่ ยังเป็นตัวแปรที่เปิดอยู่

แท็กในเรื่องนี้