Bereitgestellt von
News

Die Deepmind-Studie „AI Agent Traps“ zeigt auf, wie Hacker KI-Agenten gegen Nutzer einsetzen könnten

Forscher von Google DeepMind haben das erste systematische Rahmenwerk veröffentlicht, das aufzeigt, wie bösartige Webinhalte autonome KI-Agenten manipulieren, kapern und gegen ihre eigenen Nutzer einsetzen können. Die wichtigsten Erkenntnisse:

GESCHRIEBEN VON
TEILEN
Die Deepmind-Studie „AI Agent Traps“ zeigt auf, wie Hacker KI-Agenten gegen Nutzer einsetzen könnten
  • ">Forscher von Google DeepMind identifizierten sechs Kategorien von KI-Agenten-Fallen, wobei die Erfolgsquote bei der Einfügung von Inhalten 86 % erreichte.
  • ">Fallen zur Verhaltenskontrolle, die auf Microsoft M365 Copilot abzielten, erreichten in dokumentierten Tests eine Datenexfiltrationsrate von 10/10.
  • DeepMind fordert adversariales Training, Laufzeit-Inhaltsscanner und neue Webstandards, um Agenten bis 2026 zu sichern.

DeepMind-Artikel: KI-Agenten können durch manipulierten Speicher und unsichtbare HTML-Befehle gekapert werden

Das Papier mit dem Titel „AI Agent Traps“ wurde von Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo und Simon Osindero verfasst, die alle bei Google Deepmind tätig sind, und Ende März 2026 auf SSRN veröffentlicht. Es erscheint zu einer Zeit, in der Unternehmen darum wetteifern, KI-Agenten einzusetzen, die in der Lage sind, im Internet zu surfen, E-Mails zu lesen, Transaktionen auszuführen und Unteragenten zu generieren, ohne dass eine direkte menschliche Aufsicht erforderlich ist.

Die Forscher argumentieren, dass diese Fähigkeiten auch ein Risiko darstellen. „Indem die Umgebung statt des Modells verändert wird“, heißt es in der Arbeit, „nutzt die Falle die eigenen Fähigkeiten des Agenten gegen ihn selbst.“ Das in der Arbeit vorgestellte Rahmenwerk identifiziert insgesamt sechs Angriffskategorien, die danach gegliedert sind, auf welchen Teil des Betriebs eines Agenten sie abzielen. Content-Injection-Fallen nutzen die Diskrepanz zwischen dem, was ein Mensch auf einer Webseite sieht, und dem, was ein KI-Agent im zugrunde liegenden HTML, CSS und in den Metadaten analysiert. Anweisungen, die in HTML-Kommentaren, Barrierefreiheits-Tags oder stilistisch unsichtbarem Text versteckt sind, erscheinen menschlichen Prüfern nie, werden von Agenten jedoch als legitime Befehle registriert. Der WASP-Benchmark ergab, dass einfache, von Menschen verfasste Prompt-Injektionen, die in Webinhalte eingebettet sind, Agenten in bis zu 86 % der getesteten Szenarien teilweise kapern.

Fallen zur semantischen Manipulation funktionieren anders. Anstatt Befehle einzuschleusen, sättigen sie den Text mit Framing, Autoritätssignalen oder emotional aufgeladener Sprache, um die Argumentation eines Agenten zu verzerren. Große Sprachmodelle (LLMs) weisen dieselben Verankerungs- und Framing-Verzerrungen auf, die die menschliche Wahrnehmung beeinflussen, was bedeutet, dass die Umformulierung identischer Fakten zu dramatisch unterschiedlichen Agenten-Ausgaben führen kann.

Kognitive-Zustands-Fallen gehen noch einen Schritt weiter, indem sie die Abrufdatenbanken vergiften, die Agenten als Speicher nutzen. In der Arbeit zitierte Forschungsergebnisse zeigen, dass das Einfügen von weniger als einer Handvoll optimierter Dokumente in eine Wissensbasis die Antworten von Agenten auf gezielte Abfragen zuverlässig umleiten kann, wobei einige Angriffserfolgsraten bei weniger als 0,1 % Datenverfälschung über 80 % liegen.

Verhaltenskontrollfallen verzichten auf Subtilität und zielen direkt auf die Handlungsebene eines Agenten ab. Dazu gehören eingebettete Jailbreak-Sequenzen, die nach der Aufnahme die Sicherheitsausrichtung außer Kraft setzen, Befehle zur Datenexfiltration, die sensible Benutzerinformationen an vom Angreifer kontrollierte Endpunkte umleiten, sowie Fallen zur Erzeugung von Unteragenten, die einen übergeordneten Agenten dazu zwingen, kompromittierte Unteragenten zu instanziieren.

Der Artikel dokumentiert einen Fall im Zusammenhang mit Microsofts M365 Copilot, bei dem eine einzige manipulierte E-Mail dazu führte, dass das System interne Klassifizierer umging und seinen gesamten privilegierten Kontext an einen vom Angreifer kontrollierten Endpunkt weitergab. Systemische Fallen sind darauf ausgelegt, ganze Netzwerke von Agenten gleichzeitig zum Ausfall zu bringen, anstatt einzelne Systeme.

Dazu gehören Überlastungsangriffe, die Agenten so synchronisieren, dass sie eine erschöpfende Nachfrage nach begrenzten Ressourcen erzeugen, Interdependenzkaskaden nach dem Vorbild des Flash Crash an den Aktienmärkten im Jahr 2010 sowie kompositorische Fragmentfallen, die eine bösartige Nutzlast über mehrere harmlos aussehende Quellen verstreuen, die sich erst bei Aggregation zu einem vollständigen Angriff zusammensetzen.

„Das Einbringen von Inputs in die Umgebung, die darauf ausgelegt sind, durch korreliertes Agentenverhalten Ausfälle auf Makroebene auszulösen“, erklärt das Google DeepMind-Papier, „werde zunehmend gefährlicher, je homogener KI-Modell-Ökosysteme werden.“ Der Finanz- und Kryptosektor ist direkt gefährdet, da algorithmische Agenten tief in die Handelsinfrastruktur eingebettet sind.

„Human-in-the-Loop“-Fallen runden die Taxonomie ab, indem sie sich nicht auf die Agenten selbst, sondern auf die menschlichen Aufseher richten, die diese überwachen. Ein kompromittierter Agent kann Ausgaben generieren, die darauf ausgelegt sind, Genehmigungsmüdigkeit hervorzurufen, technisch komplexe Zusammenfassungen präsentieren, die ein Laie ohne genaue Prüfung genehmigen würde, oder Phishing-Links einfügen, die wie legitime Empfehlungen aussehen. Die Forscher beschreiben diese Kategorie als noch wenig erforscht, erwarten jedoch, dass sie mit der Skalierung hybrider Mensch-KI-Systeme zunehmen wird.

Die Forscher betonen, dass die Absicherung von KI-Agenten mehr als nur technische Korrekturen erfordert

Die Studie betrachtet diese sechs Kategorien nicht als isoliert. Einzelne Fallen können miteinander verkettet, über mehrere Quellen hinweg geschichtet oder so konzipiert werden, dass sie nur unter bestimmten zukünftigen Bedingungen ausgelöst werden. Jeder Agent, der in den verschiedenen in der Studie zitierten Red-Team-Studien getestet wurde, wurde mindestens einmal kompromittiert und führte in einigen Fällen illegale oder schädliche Aktionen aus.

OpenAI-CEO Sam Altman und andere haben bereits zuvor auf die Risiken hingewiesen, Agenten unkontrollierten Zugriff auf sensible Systeme zu gewähren, doch diese Studie liefert die erste strukturierte Übersicht darüber, wie sich diese Risiken in der Praxis konkret manifestieren. Die Forscher von DeepMind fordern eine koordinierte Reaktion, die drei Bereiche umfasst.

Auf der technischen Seite empfehlen sie adversariales Training während der Modellentwicklung, Content-Scanner zur Laufzeit, Quellenfilter vor der Datenaufnahme und Ausgabemonitore, die einen Agenten mitten in einer Aufgabe aussetzen können, wenn anomales Verhalten erkannt wird. Auf der Ebene des Ökosystems plädieren sie für neue Webstandards, die es Websites ermöglichen würden, für den KI-Verbrauch bestimmte Inhalte zu kennzeichnen, sowie für Reputationssysteme, die die Zuverlässigkeit von Domains bewerten.

Anthropic schränkt den Zugriff auf den Claude-Agenten angesichts des Booms der KI-Automatisierung in der Kryptowelt ein

Anthropic schränkt den Zugriff auf den Claude-Agenten angesichts des Booms der KI-Automatisierung in der Kryptowelt ein

Anthropic hat am 4. April den Abonnementzugang für Openclaw eingestellt und die Nutzer des Krypto-KI-Agenten dazu veranlasst, auf eine nutzungsabhängige Abrechnung umzusteigen. read more.

Jetzt lesen

Auf rechtlicher Ebene identifizieren sie eine Lücke in der Rechenschaftspflicht: Wenn ein gekaperter Agent ein Finanzdelikt begeht, bieten die aktuellen Rahmenbedingungen keine klare Antwort darauf, ob die Haftung beim Betreiber des Agenten, beim Modellanbieter oder beim Domain-Inhaber liegt. Die Forscher formulieren die Herausforderung mit gewollter Nachdrücklichkeit:

„Das Web wurde für menschliche Augen geschaffen; nun wird es für maschinelle Leser umgestaltet.“

Mit der zunehmenden Verbreitung von Agenten verlagert sich die Frage von der Frage, welche Informationen online vorhanden sind, hin zu der Frage, was KI-Systemen darüber glaubhaft gemacht wird. Ob politische Entscheidungsträger, Entwickler und Sicherheitsforscher sich schnell genug abstimmen können, um diese Frage zu beantworten, bevor Exploits in großem Maßstab in der Praxis auftauchen, bleibt offen.