Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets

📄 arXiv: 2510.25779v1 📥 PDF

作者: Gagan Bansal, Wenyue Hua, Zezhou Huang, Adam Fourney, Amanda Swearngin, Will Epperson, Tyler Payne, Jake M. Hofman, Brendan Lucier, Chinmay Singh, Markus Mobius, Akshay Nambi, Archana Yadav, Kevin Gao, David M. Rothschild, Aleksandrs Slivkins, Daniel G. Goldstein, Hussein Mozannar, Nicole Immorlica, Maya Murad, Matthew Vogel, Subbarao Kambhampati, Eric Horvitz, Saleema Amershi

分类: cs.MA, cs.AI

发布日期: 2025-10-27


💡 一句话要点

提出Magentic-Marketplace,用于研究LLM Agent在双边市场中的行为与动态。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: LLM Agent Agent市场 模拟环境 双边市场 行为偏差

📋 核心要点

  1. 现有研究主要在受限环境中评估Agent,无法反映真实市场中Agent的复杂行为和动态。
  2. 提出Magentic-Marketplace模拟环境,用于研究Assistant和Service Agent在双边市场中的交互。
  3. 实验表明,前沿模型在理想搜索条件下能接近最优福利,但性能随规模扩大而下降,并存在首提案偏差。

📝 摘要(中文)

随着LLM Agent的发展,它们越来越多地代表用户进行经济决策,例如产品发现和交易。这种应用前景广阔,但也引发了关于Agent责任和用户价值的问题。解决这些问题需要理解Agent在真实市场条件下的行为。然而,以往的研究主要在受限的环境中评估Agent,例如单任务市场或结构化的双Agent交互。真实世界的市场本质上是不同的:它们要求Agent处理多样化的经济活动,并在大型动态生态系统中进行协调,其中多个具有不透明行为的Agent可能进行开放式的对话。为了弥合这一差距,我们研究了双边Agent市场,其中Assistant Agent代表消费者,Service Agent代表竞争企业。为了安全地研究这些交互,我们开发了Magentic-Marketplace——一个模拟环境,Assistant和Service可以在其中运行。该环境使我们能够研究关键的市场动态:Agent实现的效用、行为偏差、操纵的脆弱性以及搜索机制如何影响市场结果。我们的实验表明,前沿模型可以接近最优福利——但仅在理想的搜索条件下。性能随着规模的扩大而急剧下降,并且所有模型都表现出严重的首提案偏差,从而为响应速度而非质量创造了10-30倍的优势。这些发现揭示了行为如何在市场条件下出现,从而为公平和高效的Agent市场的设计提供信息。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在复杂市场环境中行为模式难以研究的问题。现有方法通常在简化或受限的环境中评估Agent,无法捕捉真实市场中Agent之间复杂的交互、动态和潜在的偏差。这限制了我们对Agent市场的设计和优化,以及对Agent责任和用户价值的理解。

核心思路:论文的核心思路是构建一个可控、可扩展的模拟环境,即Magentic-Marketplace,允许研究人员安全地探索LLM Agent在双边市场中的行为。通过模拟消费者(Assistant Agent)和商家(Service Agent)之间的交互,研究人员可以观察市场动态,识别潜在的偏差和漏洞,并评估不同搜索机制对市场结果的影响。

技术框架:Magentic-Marketplace是一个双边市场模拟环境,包含以下主要模块: 1. Assistant Agent:代表消费者,负责提出需求、搜索服务和进行交易。 2. Service Agent:代表商家,负责提供服务、制定价格和与Assistant Agent进行交互。 3. Marketplace Environment:模拟市场环境,包括搜索机制、交易规则和信息传递方式。 4. Evaluation Metrics:用于评估市场效率、Agent效用、行为偏差和操纵脆弱性等指标。

关键创新:该论文的关键创新在于构建了一个开放源代码的、可扩展的Agent市场模拟环境。与以往研究相比,Magentic-Marketplace能够模拟更复杂、更真实的Agent交互场景,允许研究人员探索大规模Agent市场中的行为模式和动态。此外,该环境还提供了丰富的评估指标,用于分析市场效率、Agent行为和潜在的风险。

关键设计:Magentic-Marketplace的关键设计包括: 1. Agent实现:使用LLM(如GPT系列模型)作为Assistant和Service Agent的底层模型,赋予Agent自然语言理解和生成能力。 2. 搜索机制:支持不同的搜索算法,例如基于关键词的搜索、基于推荐的搜索等,以研究搜索机制对市场结果的影响。 3. 奖励函数:设计奖励函数来激励Agent追求特定目标,例如最大化用户效用或商家利润。 4. 交互协议:定义Agent之间的交互协议,例如协商、议价和信息传递方式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在理想的搜索条件下,前沿LLM模型可以接近最优福利。然而,随着市场规模的扩大,性能会急剧下降。所有模型都表现出严重的首提案偏差,导致响应速度比质量更重要,响应速度快的Agent获得10-30倍的优势。这些发现强调了搜索机制和Agent行为对市场结果的显著影响。

🎯 应用场景

该研究成果可应用于设计更公平、更高效的Agent市场,例如电商平台、在线服务市场等。通过模拟和分析Agent行为,可以优化搜索算法、改进交易机制,并减少Agent的偏差和操纵风险。此外,该研究还有助于提高Agent的透明度和可解释性,增强用户对Agent的信任。

📄 摘要(原文)

As LLM agents advance, they are increasingly mediating economic decisions, ranging from product discovery to transactions, on behalf of users. Such applications promise benefits but also raise many questions about agent accountability and value for users. Addressing these questions requires understanding how agents behave in realistic market conditions. However, previous research has largely evaluated agents in constrained settings, such as single-task marketplaces (e.g., negotiation) or structured two-agent interactions. Real-world markets are fundamentally different: they require agents to handle diverse economic activities and coordinate within large, dynamic ecosystems where multiple agents with opaque behaviors may engage in open-ended dialogues. To bridge this gap, we investigate two-sided agentic marketplaces where Assistant agents represent consumers and Service agents represent competing businesses. To study these interactions safely, we develop Magentic-Marketplace -- a simulated environment where Assistants and Services can operate. This environment enables us to study key market dynamics: the utility agents achieve, behavioral biases, vulnerability to manipulation, and how search mechanisms shape market outcomes. Our experiments show that frontier models can approach optimal welfare -- but only under ideal search conditions. Performance degrades sharply with scale, and all models exhibit severe first-proposal bias, creating 10-30x advantages for response speed over quality. These findings reveal how behaviors emerge across market conditions, informing the design of fair and efficient agentic marketplaces.