Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition
作者: Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
Market-Bench:构建经济贸易竞争基准,评估大语言模型在经济活动中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 经济建模 多智能体 基准测试 市场竞争 供应链 拍卖机制
📋 核心要点
- 现有方法难以评估LLM在经济资源管理和获取方面的能力,缺乏针对经济贸易场景的基准测试。
- Market-Bench构建多智能体供应链经济模型,LLM作为零售商参与采购和零售环节,模拟真实市场竞争。
- 实验结果揭示了LLM在经济活动中的显著性能差异,并观察到“赢者通吃”现象,为进一步研究提供了依据。
📝 摘要(中文)
本文提出了Market-Bench,一个综合性的基准测试,旨在通过经济和贸易竞争来评估大型语言模型(LLMs)在经济相关任务中的能力。具体来说,我们构建了一个可配置的多智能体供应链经济模型,其中LLMs充当零售商代理,负责采购和销售商品。在采购阶段,LLMs在预算约束的拍卖中竞标有限的库存。在零售阶段,LLMs设定零售价格,生成营销口号,并通过基于角色的注意力机制将其提供给买家以促进购买。Market-Bench记录了完整的投标、价格、口号、销售和资产负债表状态轨迹,从而能够使用经济、运营和语义指标进行自动评估。对20个开源和闭源LLM代理的基准测试显示出显著的性能差异和赢者通吃的现象,即只有一小部分LLM零售商能够持续实现资本增值,而许多零售商尽管具有相似的语义匹配得分,但仍在盈亏平衡点附近徘徊。Market-Bench为研究LLMs如何在竞争市场中互动提供了一个可复现的测试平台。
🔬 方法详解
问题定义:现有的大语言模型(LLMs)在经济和贸易领域的应用潜力巨大,但缺乏有效的评估工具来衡量它们在资源管理、市场竞争等方面的能力。现有的基准测试通常侧重于语言理解、生成等通用能力,而忽略了经济活动中特有的决策、策略制定等复杂性。因此,需要一个专门的基准测试来评估LLMs在经济贸易场景下的表现,并揭示其优势与不足。
核心思路:Market-Bench的核心思路是将LLMs置于一个模拟的经济环境中,让它们扮演零售商的角色,参与采购和零售环节的竞争。通过观察LLMs在不同市场条件下的行为和表现,可以评估它们在资源分配、定价策略、营销推广等方面的能力。这种方法能够更真实地反映LLMs在实际经济活动中的潜力。
技术框架:Market-Bench的技术框架主要包括以下几个模块:1) 经济模型:构建一个可配置的多智能体供应链经济模型,模拟真实的商品生产、流通和销售过程。2) LLM代理:将LLMs作为零售商代理,负责采购商品、设定价格、生成营销口号等。3) 拍卖机制:设计预算约束的拍卖机制,让LLMs竞标有限的库存。4) 零售机制:设计基于角色的注意力机制,让LLMs向买家展示商品信息和营销口号。5) 评估指标:定义经济、运营和语义指标,用于自动评估LLMs的表现。
关键创新:Market-Bench的关键创新在于:1) 场景模拟:构建了一个更贴近真实经济活动的模拟环境,能够更全面地评估LLMs的能力。2) 多智能体交互:引入多智能体交互机制,让LLMs在竞争中学习和进化。3) 自动评估:设计了一套自动化的评估指标,能够更客观地衡量LLMs的表现。
关键设计:在Market-Bench中,关键的设计包括:1) 拍卖机制:采用预算约束的拍卖机制,限制LLMs的采购能力,增加竞争的激烈程度。2) 零售机制:采用基于角色的注意力机制,让LLMs能够根据买家的偏好定制营销策略。3) 评估指标:定义了经济指标(如利润、市场份额)、运营指标(如库存周转率、销售额)和语义指标(如口号质量、信息匹配度),用于全面评估LLMs的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的LLM在Market-Bench上的表现存在显著差异,部分LLM能够持续实现资本增值,而另一些则难以盈利。即使语义匹配得分相近的LLM,其经济表现也可能相差甚远,这表明LLM的经济决策能力不仅仅取决于其语言理解能力。实验还观察到“赢者通吃”现象,少数LLM占据了大部分市场份额。
🎯 应用场景
Market-Bench可用于评估和改进LLM在经济预测、市场分析、智能定价、供应链管理等领域的应用。该基准测试能够帮助研究人员更好地理解LLM在复杂经济环境中的行为,并开发出更有效的经济智能体。此外,Market-Bench还可以用于教育和培训,帮助学生和从业人员了解LLM在经济领域的应用。
📄 摘要(原文)
The ability of large language models (LLMs) to manage and acquire economic resources remains unclear. In this paper, we introduce \textbf{Market-Bench}, a comprehensive benchmark that evaluates the capabilities of LLMs in economically-relevant tasks through economic and trade competition. Specifically, we construct a configurable multi-agent supply chain economic model where LLMs act as retailer agents responsible for procuring and retailing merchandise. In the \textbf{procurement} stage, LLMs bid for limited inventory in budget-constrained auctions. In the \textbf{retail} stage, LLMs set retail prices, generate marketing slogans, and provide them to buyers through a role-based attention mechanism for purchase. Market-Bench logs complete trajectories of bids, prices, slogans, sales, and balance-sheet states, enabling automatic evaluation with economic, operational, and semantic metrics. Benchmarking on 20 open- and closed-source LLM agents reveals significant performance disparities and winner-take-most phenomenon, \textit{i.e.}, only a small subset of LLM retailers can consistently achieve capital appreciation, while many hover around the break-even point despite similar semantic matching scores. Market-Bench provides a reproducible testbed for studying how LLMs interact in competitive markets.