Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition

作者: Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

Market-Bench：构建经济贸易竞争基准，评估大语言模型在经济活动中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 经济建模 多智能体 基准测试 市场竞争 供应链 拍卖机制

📋 核心要点

现有方法难以评估LLM在经济资源管理和获取方面的能力，缺乏针对经济贸易场景的基准测试。
Market-Bench构建多智能体供应链经济模型，LLM作为零售商参与采购和零售环节，模拟真实市场竞争。
实验结果揭示了LLM在经济活动中的显著性能差异，并观察到“赢者通吃”现象，为进一步研究提供了依据。

📝 摘要（中文）

本文提出了Market-Bench，一个综合性的基准测试，旨在通过经济和贸易竞争来评估大型语言模型（LLMs）在经济相关任务中的能力。具体来说，我们构建了一个可配置的多智能体供应链经济模型，其中LLMs充当零售商代理，负责采购和销售商品。在采购阶段，LLMs在预算约束的拍卖中竞标有限的库存。在零售阶段，LLMs设定零售价格，生成营销口号，并通过基于角色的注意力机制将其提供给买家以促进购买。Market-Bench记录了完整的投标、价格、口号、销售和资产负债表状态轨迹，从而能够使用经济、运营和语义指标进行自动评估。对20个开源和闭源LLM代理的基准测试显示出显著的性能差异和赢者通吃的现象，即只有一小部分LLM零售商能够持续实现资本增值，而许多零售商尽管具有相似的语义匹配得分，但仍在盈亏平衡点附近徘徊。Market-Bench为研究LLMs如何在竞争市场中互动提供了一个可复现的测试平台。

🔬 方法详解

问题定义：现有的大语言模型（LLMs）在经济和贸易领域的应用潜力巨大，但缺乏有效的评估工具来衡量它们在资源管理、市场竞争等方面的能力。现有的基准测试通常侧重于语言理解、生成等通用能力，而忽略了经济活动中特有的决策、策略制定等复杂性。因此，需要一个专门的基准测试来评估LLMs在经济贸易场景下的表现，并揭示其优势与不足。

核心思路：Market-Bench的核心思路是将LLMs置于一个模拟的经济环境中，让它们扮演零售商的角色，参与采购和零售环节的竞争。通过观察LLMs在不同市场条件下的行为和表现，可以评估它们在资源分配、定价策略、营销推广等方面的能力。这种方法能够更真实地反映LLMs在实际经济活动中的潜力。

技术框架：Market-Bench的技术框架主要包括以下几个模块：1) 经济模型：构建一个可配置的多智能体供应链经济模型，模拟真实的商品生产、流通和销售过程。2) LLM代理：将LLMs作为零售商代理，负责采购商品、设定价格、生成营销口号等。3) 拍卖机制：设计预算约束的拍卖机制，让LLMs竞标有限的库存。4) 零售机制：设计基于角色的注意力机制，让LLMs向买家展示商品信息和营销口号。5) 评估指标：定义经济、运营和语义指标，用于自动评估LLMs的表现。

关键创新：Market-Bench的关键创新在于：1) 场景模拟：构建了一个更贴近真实经济活动的模拟环境，能够更全面地评估LLMs的能力。2) 多智能体交互：引入多智能体交互机制，让LLMs在竞争中学习和进化。3) 自动评估：设计了一套自动化的评估指标，能够更客观地衡量LLMs的表现。

关键设计：在Market-Bench中，关键的设计包括：1) 拍卖机制：采用预算约束的拍卖机制，限制LLMs的采购能力，增加竞争的激烈程度。2) 零售机制：采用基于角色的注意力机制，让LLMs能够根据买家的偏好定制营销策略。3) 评估指标：定义了经济指标（如利润、市场份额）、运营指标（如库存周转率、销售额）和语义指标（如口号质量、信息匹配度），用于全面评估LLMs的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同的LLM在Market-Bench上的表现存在显著差异，部分LLM能够持续实现资本增值，而另一些则难以盈利。即使语义匹配得分相近的LLM，其经济表现也可能相差甚远，这表明LLM的经济决策能力不仅仅取决于其语言理解能力。实验还观察到“赢者通吃”现象，少数LLM占据了大部分市场份额。

🎯 应用场景

Market-Bench可用于评估和改进LLM在经济预测、市场分析、智能定价、供应链管理等领域的应用。该基准测试能够帮助研究人员更好地理解LLM在复杂经济环境中的行为，并开发出更有效的经济智能体。此外，Market-Bench还可以用于教育和培训，帮助学生和从业人员了解LLM在经济领域的应用。

📄 摘要（原文）

The ability of large language models (LLMs) to manage and acquire economic resources remains unclear. In this paper, we introduce \textbf{Market-Bench}, a comprehensive benchmark that evaluates the capabilities of LLMs in economically-relevant tasks through economic and trade competition. Specifically, we construct a configurable multi-agent supply chain economic model where LLMs act as retailer agents responsible for procuring and retailing merchandise. In the \textbf{procurement} stage, LLMs bid for limited inventory in budget-constrained auctions. In the \textbf{retail} stage, LLMs set retail prices, generate marketing slogans, and provide them to buyers through a role-based attention mechanism for purchase. Market-Bench logs complete trajectories of bids, prices, slogans, sales, and balance-sheet states, enabling automatic evaluation with economic, operational, and semantic metrics. Benchmarking on 20 open- and closed-source LLM agents reveals significant performance disparities and winner-take-most phenomenon, \textit{i.e.}, only a small subset of LLM retailers can consistently achieve capital appreciation, while many hover around the break-even point despite similar semantic matching scores. Market-Bench provides a reproducible testbed for studying how LLMs interact in competitive markets.

Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理