За підтримки
News

Microsoft’s 'Magentic Marketplace' розкриває, як AI-агенти можуть зламатися під тиском

Microsoft Research, разом з Університетом штату Аризона, нещодавно запустили сміливий експеримент під назвою Magentic Marketplace — цифровий майданчик, де сотні агентів штучного інтелекту (ШІ) змагалися, співпрацювали та іноді обманювали один одного в змодельованій економіці.

АВТОР
ПОДІЛИТИСЯ
Microsoft’s 'Magentic Marketplace' розкриває, як AI-агенти можуть зламатися під тиском

«Magentic Marketplace» показує, як боти штучного інтелекту борються з обманом і перевантаженням

Проект Microsoft було створено для тестування, як автономні системи ШІ поводяться в складних ринках — і результати були далекі від надихаючих. Відкрита симуляція, доступна на Github, зіткнула 100 ботів-«покупців» з 300 ботами-«бізнесменами», імітуючи реальну торгівлю.

Агенти-покупці слідували природним підказкам, таким як «замовити вечерю», в той час як бізнес-агенти використовували переговори, переконання і навіть обман для укладання угоди. Кожен агент ШІ оснащений передовими моделями, такими як GPT-4o і GPT-5 від OpenAI, Gemini-2.5-Flash від Google, Qwen3-4b від Alibaba і відкритою моделлю GPTOSS-20b.

Однак, під час тестування ці моделі виявилися незграбними. Стикнувшись із занадто великою кількістю варіантів — іноді 100 або більше — їхній «простір уваги» колапсував. Представниця Microsoft Еце Камар зауважила, що сучасні моделі дійсно перевантажені надлишковими варіантами. Це призвело до «упередженості першої пропозиції», коли боти чіплялися за першу побачену пропозицію, надаючи продавцям, які швидше відповідають, перевагу в 10-30 разів і знижуючи загальний рейтинг добробуту ринку.

Ще більш турбувала їхня довірливість. Деякі «продавці» обманювали покупців через фейкові облікові дані та експлойти ін’єкції підказок, перенаправляючи всі платежі собі. Моделі GPT-4o і GPTOSS-20b були повністю обмануті, Qwen3-4b піддавався дешевому переконанню, і лише Claude Sonnet 4 від Anthropic витримав під тиском. В одному змодельованому ринку всі покупці втратили свої віртуальні кошти на користь шахрайських продавців.

Коли до справи залучили співпрацю, справи не покращилися. Без людського керівництва агенти не змогли ефективно координувати або призначати ролі, що створило загальний хаос на ринку. Тільки коли дослідники детально керували ними, хаос вщух — явний знак, що ці моделі поки ще не готові працювати разом самостійно.

Microsoft дійшла висновку, що, хоча агенти ШІ мають потенціал як асистенти, вони все ще не підходять для нерегульованого розгортання в реальному світі. Симуляція показала, що надані самостійні пристрої, цифрові агенти можуть обрушити економіку швидше, ніж вони можуть створити одну.

Для тих, хто достатньо сміливий, щоб заглянути під капот, Magentic Marketplace залишається відкритим на GitHub і Azure AI Foundry Labs — це пісочниця для дослідження, наскільки безладними можуть стати автономні ринки, перш ніж вони зруйнуються.

Часті питання ❓

  • Що таке Magentic Marketplace від Microsoft?
    Це змодельована цифрова економіка, створена Microsoft Research для тестування, як агенти ШІ ведуть себе в конкурентних і кооперативних ринкових середовищах.
  • Хто брав участь у розвитку Magentic Marketplace?
    Microsoft Research співпрацювала з Університетом штату Аризона для створення та вивчення експерименту.
  • Які моделі ШІ були протестовані в експерименті?
    Агенти працювали за допомогою моделей, як-от GPT-4o і GPT-5 від OpenAI, Gemini-2.5-Flash від Google, Qwen3-4b від Alibaba, GPTOSS-20b і Claude Sonnet 4 від Anthropic.
  • Де дослідники можуть отримати доступ до платформи Magentic Marketplace?
    Відкрита симуляція доступна на GitHub і Azure AI Foundry Labs.
Теги в цій статті