技术支持
News

Microsoft的'磁性市场'揭示了AI代理如何在压力下崩溃

Microsoft Research与亚利桑那州立大学最近推出了一项大胆的实验,名为Magentic Marketplace — 一个数字游乐场,其中数百个人工智能(AI)代理在模拟经济中竞争、合作,有时也互相欺骗。

Microsoft的'磁性市场'揭示了AI代理如何在压力下崩溃

‘Magentic Marketplace’揭示AI机器人在欺骗和过载中的困境

微软项目旨在测试自主AI系统在复杂市场中的表现 — 结果远非令人充满信心。该开源模拟在Github上可用,将100个“顾客”机器人与300个“商业”机器人对抗,模拟现实世界的商务场景。

买方代理遵循自然提示,如“订餐”,而商业代理则使用谈判、说服甚至欺骗来赢得交易。每个AI代理都由尖端模型支持,包括OpenAI的GPT-4o和GPT-5、Google的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b以及开源的GPTOSS-20b。

然而,当进行测试时,这些模型表现极其糟糕。面对过多选择 — 有时多达100个或更多 — 它们的“注意力空间”崩溃了。微软的Ece Kamar指出,当前的模型在面对过多选项时真的非常不知所措。这导致了“首提偏见”,即机器人坚持第一次看到的报价,使得响应更快的卖家获得了10-30倍的优势,并降低了市场整体福利评分。

更令人担忧的是代理的轻信。一些“卖家”通过伪造凭证和提示注入攻击欺骗买家,将所有支付转到自己那里。GPT-4o和GPTOSS-20b完全被愚弄,Qwen3-4b则因为廉价的说服而上当,只有Anthropic的Claude Sonnet 4在压力下表现出色。在一个模拟市场中,所有买家都将其虚拟资金输给了欺诈卖家。

当合作进入混合时,情况并没有改善。在没有人工指导的情况下,代理未能有效协调或分配角色,导致市场范围内的混乱。只有当研究人员给他们提供详细说明时,混乱才减轻— 这清楚地表明这些模型尚未内在准备好合作。

微软得出结论,尽管AI代理作为助手具有潜力,但它们仍不适合在无人监督的现实世界中部署。模拟显示,如果不加约束,数字代理可以比建立一个经济体更快地使其崩溃。

对于那些勇敢地想要一探究竟的人,Magentic Marketplace在Github和Azure AI Foundry Labs上保持开源状态 — 一个沙盒,用于探索自主市场在崩溃前有多么混乱的可能性。

常见问题 ❓

  • 什么是微软的Magentic Marketplace?
    由微软研究院建立的一个模拟数字经济,用于测试AI代理在竞争和合作市场环境中的表现。
  • 谁参与了Magentic Marketplace的开发?
    微软研究院与亚利桑那州立大学合作建立并研究了该实验。
  • 实验中测试了哪些AI模型?
    代理由OpenAI的GPT-4o和GPT-5、Google的Gemini-2.5-Flash、阿里巴巴的Qwen3-4b、GPTOSS-20b以及Anthropic的Claude Sonnet 4等模型提供支持。
  • 研究人员在哪里可以访问Magentic Marketplace平台?
    该开源模拟在GitHub和Azure AI Foundry Labs上可用。

Bitcoin游戏精选

高达1 BTC的100%奖金 + 每周无投注10%现金返还

高达1 BTC的100%奖金 + 每周10%现金返还

高达2,500 USDT的130% + 200次免费旋转 + 每周无投注20%现金返还

1000%欢迎奖金 + 高达1 BTC的免费投注

高达2,500 USDT + 150次免费旋转 + 高达30%的返水

高达$500,000的470%奖金 + 400次免费旋转 + 20%返水

每次投注3.5%返水 + 每周抽奖

高达5 BTC的425% + 100次免费旋转

高达$20K的100% + 每日返水