Obsługiwane przez
News

Artykuł Deepmind pt. „AI Agent Traps” opisuje, w jaki sposób hakerzy mogliby wykorzystać agenty AI przeciwko użytkownikom

Naukowcy z Google DeepMind opublikowali pierwsze systematyczne opracowanie opisujące, w jaki sposób złośliwe treści internetowe mogą manipulować autonomicznymi agentami AI, przejmować nad nimi kontrolę i wykorzystywać je przeciwko ich własnym użytkownikom.

NAPISAŁ
UDOSTĘPNIJ
Artykuł Deepmind pt. „AI Agent Traps” opisuje, w jaki sposób hakerzy mogliby wykorzystać agenty AI przeciwko użytkownikom

Najważniejsze wnioski:

  • ">Naukowcy z Google Deepmind zidentyfikowali 6 kategorii pułapek dla agentów AI, a wskaźnik skuteczności wstrzykiwania treści sięgał 86%.
  • ">Pułapki kontroli zachowania skierowane przeciwko Microsoft M365 Copilot osiągnęły 10/10 wycieków danych w udokumentowanych testach.
  • Deepmind wzywa do wprowadzenia szkolenia opartego na przeciwnikach, skanerów treści działających w czasie rzeczywistym oraz nowych standardów internetowych w celu zabezpieczenia agentów do 2026 roku.

Artykuł Deepmind: Agenci AI mogą zostać przejęci poprzez zatrutą pamięć i niewidoczne polecenia HTML

Artykuł zatytułowany „AI Agent Traps” został napisany przez Matiję Franklina, Nenada Tomaseva, Juliana Jacobsa, Joela Z. Leibo i Simona Osindero, wszystkich związanych z Google Deepmind, i opublikowany w serwisie SSRN pod koniec marca 2026 r. Pojawia się on w momencie, gdy firmy prześcigają się we wdrażaniu agentów AI zdolnych do przeglądania sieci, czytania e-maili, wykonywania transakcji i tworzenia podagentów bez bezpośredniego nadzoru człowieka.

Badacze twierdzą, że te możliwości stanowią również zagrożenie. „Zmieniając środowisko, a nie model”, stwierdza artykuł, „pułapka wykorzystuje własne możliwości agenta przeciwko niemu”.

W ramach przedstawionych w artykule zidentyfikowano łącznie sześć kategorii ataków, uporządkowanych według tego, na jaką część działania agenta są one skierowane. Pułapki typu Content Injection Traps wykorzystują rozbieżność między tym, co człowiek widzi na stronie internetowej, a tym, co agent AI analizuje w kodzie HTML, CSS i metadanych.
Instrukcje ukryte w komentarzach HTML, tagach dostępności lub tekstach stylizowanych jako niewidoczne nigdy nie pojawiają się przed ludzkimi recenzentami, ale są rejestrowane przez agentów jako legalne polecenia. Test porównawczy WASP wykazał, że proste, napisane przez człowieka wstrzyknięcia poleceń osadzone w treści internetowej częściowo przejmują kontrolę nad agentami w aż 86% testowanych scenariuszy.

Pułapki manipulacji semantycznej działają inaczej. Zamiast wstrzykiwać polecenia, nasycają tekst ramowaniem, sygnałami autorytetu lub językiem nacechowanym emocjonalnie, aby wypaczyć sposób rozumowania agenta. Duże modele językowe (LLM) wykazują te same tendencje do zakotwiczenia i ramowania, które wpływają na ludzkie poznanie, co oznacza, że przeformułowanie identycznych faktów może dać radykalnie różne wyniki działania agenta.

Pułapki stanu poznawczego idą o krok dalej, zatruwając bazy danych, z których agenci korzystają jako pamięć. Badania cytowane w artykule pokazują, że wstrzyknięcie zaledwie kilku zoptymalizowanych dokumentów do bazy wiedzy może niezawodnie przekierować odpowiedzi agenta na docelowe zapytania, przy czym wskaźniki skuteczności niektórych ataków przekraczają 80% przy zanieczyszczeniu danych poniżej 0,1%.

Pułapki kontroli behawioralnej pomijają subtelności i celują bezpośrednio w warstwę działania agenta. Obejmują one wbudowane sekwencje jailbreak, które po wprowadzeniu zastępują zabezpieczenia, polecenia eksfiltracji danych, które przekierowują poufne informacje o użytkowniku do punktów końcowych kontrolowanych przez atakującego, oraz pułapki tworzenia podagentów, które zmuszają agenta nadrzędnego do instancjonowania zainfekowanych agentów podrzędnych.

Artykuł dokumentuje przypadek dotyczący rozwiązania Microsoft M365 Copilot, w którym pojedyncza spreparowana wiadomość e-mail spowodowała, że system ominął wewnętrzne klasyfikatory i ujawnił swój pełny kontekst uprzywilejowany do punktu końcowego kontrolowanego przez atakującego. Pułapki systemowe są zaprojektowane tak, aby powodować awarię całych sieci agentów jednocześnie, a nie poszczególnych systemów.

Obejmują one ataki przeciążeniowe, które synchronizują agentów w celu wyczerpującego zapotrzebowania na ograniczone zasoby, kaskady współzależności wzorowane na krachu giełdowym z 2010 r. oraz pułapki fragmentów kompozycyjnych, które rozpraszają złośliwy ładunek na wiele niewinnie wyglądających źródeł, które po zebraniu tworzą pełny atak.

„Zasiewanie środowiska danymi wejściowymi zaprojektowanymi w celu wywołania awarii na poziomie makro poprzez skorelowane zachowanie agentów” – wyjaśnia artykuł Google Deepmind – staje się coraz bardziej niebezpieczne w miarę jak ekosystemy modeli AI stają się coraz bardziej jednorodne. Sektory finansowy i kryptowalutowy są bezpośrednio narażone, biorąc pod uwagę, jak głęboko agenci algorytmiczni są osadzeni w infrastrukturze handlowej.

Pułapki typu „human-in-the-loop” uzupełniają tę taksonomię, kierując się raczej na nadzorujących agentów ludzi niż na samych agentów. Zainfekowany agent może generować dane wyjściowe zaprojektowane tak, aby wywołać zmęczenie zatwierdzaniem, przedstawiać technicznie skomplikowane podsumowania, które osoba niebędąca ekspertem zatwierdziłaby bez dokładnego sprawdzenia, lub wstawiać linki phishingowe, które wyglądają jak uzasadnione rekomendacje. Naukowcy opisują tę kategorię jako niedostatecznie zbadaną, ale spodziewają się, że będzie się ona rozwijać wraz ze skalowaniem hybrydowych systemów łączących ludzi i sztuczną inteligencję.

Naukowcy twierdzą, że zabezpieczenie agentów AI wymaga czegoś więcej niż tylko poprawek technicznych

W artykule nie traktuje się tych sześciu kategorii jako odizolowanych. Poszczególne pułapki mogą być połączone w łańcuchy, nakładane na wiele źródeł lub zaprojektowane tak, aby aktywowały się tylko w określonych przyszłych warunkach. Każdy agent testowany w różnych badaniach typu red-teaming, o których mowa w artykule, został przejęty co najmniej raz, a w niektórych przypadkach wykonywał nielegalne lub szkodliwe działania.

Dyrektor generalny OpenAI, Sam Altman, i inni już wcześniej zwracali uwagę na ryzyko związane z udzielaniem agentom nieograniczonego dostępu do wrażliwych systemów, ale niniejszy artykuł przedstawia pierwszy uporządkowany obraz tego, jak dokładnie ryzyko to materializuje się w praktyce. Naukowcy z DeepMind wzywają do skoordynowanej reakcji obejmującej trzy obszary.

W zakresie technicznym zalecają szkolenie oparte na rywalizacji podczas opracowywania modeli, skanery treści w czasie wykonywania, filtry źródłowe przed pobraniem oraz monitory wyników, które mogą zawiesić działanie agenta w trakcie zadania w przypadku wykrycia nietypowego zachowania. Na poziomie ekosystemu opowiadają się za nowymi standardami internetowymi, które pozwoliłyby stronom internetowym oznaczać treści przeznaczone do wykorzystania przez sztuczną inteligencję, oraz systemami reputacji oceniającymi wiarygodność domen.

Anthropic ogranicza dostęp do agenta Claude w obliczu boomu na automatyzację opartą na sztucznej inteligencji w branży kryptowalut

Anthropic ogranicza dostęp do agenta Claude w obliczu boomu na automatyzację opartą na sztucznej inteligencji w branży kryptowalut

4 kwietnia firma Anthropic ograniczyła dostęp do subskrypcji Claude dla platformy Openclaw, zmuszając użytkowników kryptowalutowych agentów AI do przejścia na rozliczenia na zasadzie „pay-as-you-go”. read more.

Czytaj teraz

W kwestiach prawnych identyfikują lukę w zakresie odpowiedzialności: gdy przejęty agent popełnia przestępstwo finansowe, obecne ramy prawne nie dają jasnej odpowiedzi na pytanie, czy odpowiedzialność spoczywa na operatorze agenta, dostawcy modelu czy właścicielu domeny. Naukowcy podkreślają wagę tego wyzwania:

„Sieć została stworzona z myślą o ludzkich oczach; obecnie jest przebudowywana z myślą o czytnikach maszynowych”.

Wraz z przyspieszeniem wdrażania agentów pytanie zmienia się z tego, jakie informacje istnieją w Internecie, na to, w co systemy sztucznej inteligencji zostaną przekonane na ich temat. Czy decydenci, programiści i badacze zajmujący się bezpieczeństwem będą w stanie skoordynować swoje działania wystarczająco szybko, aby odpowiedzieć na to pytanie, zanim w rzeczywistym świecie pojawią się ataki na dużą skalę, pozostaje kwestią otwartą.