High Volatility and Action Bias Distinguish LLMs from Humans in Group Coordination
作者: Sahaj Singh Maini, Robert L. Goldstone, Zoran Tiganj
分类: cs.MA, cs.AI, cs.CL, cs.GT
发布日期: 2026-04-06
💡 一句话要点
揭示LLM在群体协作中高波动性和行动偏见,与人类存在显著差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 群体协作 人机协作 行为分析 博弈论
📋 核心要点
- 现有方法难以评估LLM在复杂群体协作任务中的适应性和策略运用。
- 论文通过群体二分搜索博弈,对比LLM与人类在协作中的行为模式。
- 实验表明LLM在协作中表现出高波动性和行动偏见,与人类存在显著差异。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在群体协作中的表现,并将其与人类的表现进行了比较。研究者使用了一个具有不完全监控的共同利益博弈:群体二分搜索。在这个n人博弈中,参与者需要协调他们的行动以实现一个共同的目标,即独立提交数值,使其总和达到一个随机分配的目标数字。在没有直接沟通的情况下,他们依靠群体反馈来迭代调整他们的提交,直到达到目标数字。研究结果表明,与人类随时间推移适应并稳定其行为不同,LLM通常无法在游戏中改进,并且表现出过度的切换行为,这损害了群体的收敛性。此外,更丰富的反馈(例如,数值误差幅度)对人类有很大帮助,但对LLM的影响很小。总而言之,通过将分析建立在人类基线和机制层面的指标上,包括反应性缩放、切换动态和跨游戏学习,本文指出了人类和LLM群体之间的差异,并为缩小协作差距提供了行为基础的诊断。
🔬 方法详解
问题定义:现有方法难以评估LLM在复杂群体协作任务中的适应性和策略运用。特别是在需要迭代调整和依赖群体反馈的协作场景中,LLM是否能像人类一样有效地学习和适应,以及它们是否采用与人类相似的策略,这些问题尚未得到充分研究。现有研究缺乏对LLM群体协作行为的深入分析,以及与人类基线的直接比较。
核心思路:论文的核心思路是通过设计一个群体协作博弈(群体二分搜索)来模拟现实世界中的协作场景,并对比LLM和人类在该博弈中的表现。通过分析LLM和人类在反应性缩放、切换动态和跨游戏学习等方面的差异,揭示LLM在群体协作中的局限性,并为改进LLM的协作能力提供指导。
技术框架:该研究的技术框架主要包括以下几个部分: 1. 群体二分搜索博弈设计:设计一个n人博弈,参与者需要提交数值,使其总和达到一个随机分配的目标数字。参与者无法直接沟通,只能依靠群体反馈进行迭代调整。 2. LLM和人类参与者招募:招募LLM和人类参与者进行博弈。 3. 行为数据收集:收集LLM和人类参与者在博弈中的行为数据,包括提交的数值、反馈信息等。 4. 行为分析:分析LLM和人类参与者在反应性缩放、切换动态和跨游戏学习等方面的差异。
关键创新:该研究的关键创新在于: 1. 行为诊断:提出了一种基于行为的诊断方法,用于评估LLM在群体协作中的能力。 2. 机制分析:深入分析了LLM和人类在反应性缩放、切换动态和跨游戏学习等方面的差异,揭示了LLM在群体协作中的局限性。 3. 人类基线:通过与人类基线进行比较,更清晰地展示了LLM在群体协作中的不足。
关键设计:该研究的关键设计包括: 1. 博弈参数设置:设置合适的博弈参数,例如参与者数量、目标数字范围等,以保证博弈的难度和趣味性。 2. 反馈机制设计:设计合适的反馈机制,例如提供数值误差幅度等信息,以帮助参与者进行迭代调整。 3. 指标选择:选择合适的指标,例如反应性缩放、切换动态和跨游戏学习等,以全面评估LLM和人类在群体协作中的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与人类相比,LLM在群体二分搜索博弈中表现出更高的波动性和行动偏见,导致群体收敛速度较慢。具体来说,LLM的切换频率显著高于人类,且对更丰富的反馈信息(如数值误差幅度)的利用率较低。此外,LLM在跨游戏学习方面的能力也明显弱于人类,难以随着游戏次数的增加而提升协作效率。
🎯 应用场景
该研究成果可应用于开发更智能的协作式AI系统,例如在软件开发、科学研究和应急响应等领域,提升AI在团队协作中的效率和效果。通过理解LLM在协作中的局限性,可以设计更有效的干预措施,弥合LLM与人类在协作能力上的差距,从而构建更可靠的人机协作系统。
📄 摘要(原文)
Humans exhibit remarkable abilities to coordinate in groups. As large language models (LLMs) become more capable, it remains an open question whether they can demonstrate comparable adaptive coordination and whether they use the same strategies as humans. To investigate this, we compare LLM and human performance on a common-interest game with imperfect monitoring: Group Binary Search. In this n-player game, participants need to coordinate their actions to achieve a common objective. Players independently submit numerical values in an effort to collectively sum to a randomly assigned target number. Without direct communication, they rely on group feedback to iteratively adjust their submissions until they reach the target number. Our findings show that, unlike humans who adapt and stabilize their behavior over time, LLMs often fail to improve across games and exhibit excessive switching, which impairs group convergence. Moreover, richer feedback (e.g., numerical error magnitude) benefits humans substantially but has small effects on LLMs. Taken together, by grounding the analysis in human baselines and mechanism-level metrics, including reactivity scaling, switching dynamics, and learning across games, we point to differences in human and LLM groups and provide a behaviorally grounded diagnostic for closing the coordination gap.