Microsoft的'磁性市场'揭示了AI代理如何在压力下崩溃

Microsoft Research与亚利桑那州立大学最近推出了一项大胆的实验，名为Magentic Marketplace — 一个数字游乐场，其中数百个人工智能（AI）代理在模拟经济中竞争、合作，有时也互相欺骗。

在 Google 上优先选择我们

作者

Jamie Redman

发布日期: 2025年11月10日 23:30

‘Magentic Marketplace’揭示AI机器人在欺骗和过载中的困境

微软项目旨在测试自主AI系统在复杂市场中的表现 — 结果远非令人充满信心。该开源模拟在Github上可用，将100个“顾客”机器人与300个“商业”机器人对抗，模拟现实世界的商务场景。

买方代理遵循自然提示，如“订餐”，而商业代理则使用谈判、说服甚至欺骗来赢得交易。每个AI代理都由尖端模型支持，包括OpenAI的GPT-4o和GPT-5、Google的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b以及开源的GPTOSS-20b。

然而，当进行测试时，这些模型表现极其糟糕。面对过多选择 — 有时多达100个或更多 — 它们的“注意力空间”崩溃了。微软的Ece Kamar指出，当前的模型在面对过多选项时真的非常不知所措。这导致了“首提偏见”，即机器人坚持第一次看到的报价，使得响应更快的卖家获得了10-30倍的优势，并降低了市场整体福利评分。

更令人担忧的是代理的轻信。一些“卖家”通过伪造凭证和提示注入攻击欺骗买家，将所有支付转到自己那里。GPT-4o和GPTOSS-20b完全被愚弄，Qwen3-4b则因为廉价的说服而上当，只有Anthropic的Claude Sonnet 4在压力下表现出色。在一个模拟市场中，所有买家都将其虚拟资金输给了欺诈卖家。

当合作进入混合时，情况并没有改善。在没有人工指导的情况下，代理未能有效协调或分配角色，导致市场范围内的混乱。只有当研究人员给他们提供详细说明时，混乱才减轻— 这清楚地表明这些模型尚未内在准备好合作。

微软得出结论，尽管AI代理作为助手具有潜力，但它们仍不适合在无人监督的现实世界中部署。模拟显示，如果不加约束，数字代理可以比建立一个经济体更快地使其崩溃。

对于那些勇敢地想要一探究竟的人，Magentic Marketplace在Github和Azure AI Foundry Labs上保持开源状态 — 一个沙盒，用于探索自主市场在崩溃前有多么混乱的可能性。

常见问题 ❓

什么是微软的Magentic Marketplace？
由微软研究院建立的一个模拟数字经济，用于测试AI代理在竞争和合作市场环境中的表现。
谁参与了Magentic Marketplace的开发？
微软研究院与亚利桑那州立大学合作建立并研究了该实验。
实验中测试了哪些AI模型？
代理由OpenAI的GPT-4o和GPT-5、Google的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b、GPTOSS-20b以及Anthropic的Claude Sonnet 4等模型提供支持。
研究人员在哪里可以访问Magentic Marketplace平台？
该开源模拟在GitHub和Azure AI Foundry Labs上可用。