Strategic Tradeoffs Between Humans and AI in Multi-Agent Bargaining

📄 arXiv: 2509.09071v3 📥 PDF

作者: Crystal Qian, Kehang Zhu, John Horton, Benjamin S. Manning, Vivian Tsai, James Wexler, Nithum Thain

分类: cs.AI, cs.GT, cs.HC

发布日期: 2025-09-11 (更新: 2025-10-13)


💡 一句话要点

对比人类、LLM和贝叶斯智能体在多智能体议价中的策略权衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体议价 大型语言模型 行为经济学 人机协作 策略权衡

📋 核心要点

  1. 现有方法难以在动态多智能体议价环境中有效评估LLM的策略和行为,尤其是在与人类行为对比时。
  2. 论文通过对比人类、LLM和贝叶斯智能体在相同议价条件下的行为,揭示了不同智能体类型的策略权衡。
  3. 实验表明,LLM和人类在剩余价值上表现相近,但行为模式迥异,LLM更保守,人类更具战略性和公平性。

📝 摘要(中文)

随着大型语言模型(LLM)越来越多地嵌入到商业谈判和群体协调等协作性人类活动中,评估它们能够实现的性能提升以及它们如何在动态、多智能体环境中交互变得至关重要。与在良好指定条件下表现出色的传统统计智能体(如贝叶斯模型)不同,大型语言模型(LLM)可以推广到各种真实场景,从而引发关于它们的策略和行为与人类和其他智能体类型相比如何的新问题。在这项工作中,我们在相同的条件下比较了人类(N = 216)、LLM(GPT-4o、Gemini 1.5 Pro)和贝叶斯智能体在动态谈判环境中的结果和行为动态。贝叶斯智能体通过激进的优化提取了最高的剩余价值,但代价是频繁的交易拒绝。人类和LLM实现了相似的总体剩余价值,但通过不同的行为:LLM倾向于保守的、让步性的交易,很少拒绝,而人类则采用更具战略性、冒险性和公平导向的行为。因此,我们发现性能均等——智能体评估中的一个常见基准——可能会掩盖过程和对齐方面的根本差异,这对于在实际协调任务中的实际部署至关重要。通过在匹配的条件下建立基础行为基线,这项工作为未来在更应用化、变量丰富的环境中的研究提供了基线。

🔬 方法详解

问题定义:论文旨在研究在多智能体议价场景中,人类、大型语言模型(LLM)和贝叶斯智能体之间的策略差异和性能表现。现有方法,如传统的统计智能体(例如贝叶斯模型),虽然在特定条件下表现良好,但缺乏在复杂、真实的议价环境中与人类行为进行有效对比的能力。此外,仅仅关注性能指标(如剩余价值)可能无法揭示不同智能体在议价过程中的行为模式和策略选择。

核心思路:论文的核心思路是通过在相同的动态议价环境下,对比人类、LLM和贝叶斯智能体的行为和结果,从而揭示不同智能体类型在策略选择上的权衡。通过分析不同智能体的议价策略、接受/拒绝交易的频率以及最终获得的剩余价值,论文旨在理解LLM在多智能体协作中的优势和局限性,并为未来的智能体设计提供指导。

技术框架:论文采用实验研究的方法,构建了一个动态议价环境,其中人类、GPT-4o、Gemini 1.5 Pro和贝叶斯智能体作为议价参与者。实验流程包括:1) 定义议价规则和奖励机制;2) 招募人类参与者并设置实验条件;3) 使用LLM和贝叶斯模型构建智能体;4) 在相同的议价环境下运行实验;5) 收集和分析实验数据,包括议价结果、交易接受/拒绝情况和智能体的行为模式。

关键创新:论文的关键创新在于:1) 在相同的实验条件下,对人类、LLM和贝叶斯智能体进行了全面的对比研究,揭示了不同智能体类型在议价策略上的差异;2) 强调了仅仅关注性能指标(如剩余价值)的局限性,并提出了需要关注智能体的行为模式和策略选择;3) 为未来在更复杂、真实的议价环境中研究智能体行为提供了基线。

关键设计:论文的关键设计包括:1) 动态议价环境的设计,允许智能体在多轮议价中调整策略;2) 奖励机制的设计,鼓励智能体最大化剩余价值;3) 实验条件的控制,确保不同智能体在相同的条件下进行议价;4) 行为指标的选取,用于量化智能体的议价策略,例如交易接受/拒绝频率、让步幅度等。具体的参数设置和网络结构(如果涉及)在论文中未详细描述,属于未知信息。

📊 实验亮点

实验结果表明,贝叶斯智能体通过激进优化获得最高剩余价值,但交易拒绝率高。人类和LLM的剩余价值相近,但行为模式不同:LLM倾向于保守让步,人类更具战略性和公平性。这表明,仅凭性能均等无法全面评估智能体的行为和对齐程度。

🎯 应用场景

该研究成果可应用于开发更智能、更人性化的AI协作系统,例如在商业谈判、供应链管理、资源分配等领域。通过理解LLM与人类在策略上的差异,可以设计出与人类更有效协作的AI智能体,提升协作效率和效果。此外,该研究也为评估和改进AI智能体的行为模式提供了新的视角。

📄 摘要(原文)

As large language models (LLMs) are increasingly embedded in collaborative human activities such as business negotiations and group coordination, it becomes critical to evaluate both the performance gains they can achieve and how they interact in dynamic, multi-agent environments. Unlike traditional statistical agents such as Bayesian models, which may excel under well-specified conditions, large language models (LLMs) can generalize across diverse, real-world scenarios, raising new questions about how their strategies and behaviors compare to those of humans and other agent types. In this work, we compare outcomes and behavioral dynamics across humans (N = 216), LLMs (GPT-4o, Gemini 1.5 Pro), and Bayesian agents in a dynamic negotiation setting under identical conditions. Bayesian agents extract the highest surplus through aggressive optimization, at the cost of frequent trade rejections. Humans and LLMs achieve similar overall surplus, but through distinct behaviors: LLMs favor conservative, concessionary trades with few rejections, while humans employ more strategic, risk-taking, and fairness-oriented behaviors. Thus, we find that performance parity -- a common benchmark in agent evaluation -- can conceal fundamental differences in process and alignment, which are critical for practical deployment in real-world coordination tasks. By establishing foundational behavioral baselines under matched conditions, this work provides a baseline for future studies in more applied, variable-rich environments.