Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament
作者: Dmitry Dagaev, Egor Ivanov, Petr Parshakov, Alexey Savvateev, Gleb Vasiliev
分类: econ.GN, cs.AI, cs.GT, cs.HC
发布日期: 2026-05-21
💡 一句话要点
Colonel Blotto博弈中,人类策略优于大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Colonel Blotto博弈 大型语言模型 策略选择 人机对抗 博弈论
📋 核心要点
- 现有方法难以在高维动作空间和缺乏纯策略纳什均衡的Colonel Blotto博弈中找到有效策略。
- 论文通过组织人类与LLM的Colonel Blotto博弈,研究双方在策略选择上的差异与优劣。
- 实验表明,人类更倾向于使用校准良好的中级分配策略,从而胜过LLM的简单刻板策略。
📝 摘要(中文)
本文研究了人类和大型语言模型(LLMs)在策略环境中的行为。作者组织了一系列Colonel Blotto博弈的循环赛。由于高维动作空间和缺乏纯策略纳什均衡,该博弈吸引了博弈论学者的关注。在第一场比赛中,超过200名人类参与者相互竞争。在第二场比赛中,邀请了几种流行的LLM提交策略。在第三场比赛中,LLM策略的数量与人类提交的数量相匹配。研究发现,人类更常采用校准良好的中级分配启发式方法,并且优于LLM提交的更简单、更刻板的策略。战略复杂性是成功的关键,前提是达到了必要的推理深度,而较低和较高的推理水平并没有比原始策略提供明显的优势。在人类中,研究领域对成功有微弱的预测作用:具有STEM背景的参与者在第一场比赛中表现更好。令人惊讶的是,人类几乎没有调整他们在不同对手组的比赛中的策略。这个结果表明,人类的选择主要基于游戏的规则,而不是对手的身份,将LLM视为人类竞争对手。
🔬 方法详解
问题定义:Colonel Blotto博弈是一个经典的博弈论问题,涉及两个玩家在多个战场上分配有限的资源。现有方法,尤其是LLM,在处理这种高维策略空间时,往往采用过于简单或刻板的策略,无法有效利用博弈规则和对手信息。这导致它们在与人类玩家的对抗中处于劣势。
核心思路:论文的核心思路是通过实验对比人类和LLM在Colonel Blotto博弈中的策略选择,揭示人类玩家更胜一筹的原因。作者认为,人类玩家能够更好地校准中级分配启发式方法,从而在复杂策略环境中取得优势。这种优势来源于人类更灵活的策略调整能力和对博弈规则的深刻理解。
技术框架:论文采用循环赛的实验框架,组织了三场比赛。第一场是人类之间的比赛,第二场是LLM之间的比赛,第三场是人类与LLM之间的比赛。通过对比不同比赛中参与者的胜率和策略选择,分析人类和LLM在策略上的差异。
关键创新:论文的关键创新在于将人类与LLM置于同一策略博弈环境中进行对比,并发现人类在策略选择上的优势。这种优势并非来源于更高级的推理能力,而是来源于更合理的策略校准和对博弈规则的深刻理解。
关键设计:实验的关键设计包括:1) 确保LLM策略的数量与人类策略的数量相匹配,以保证公平性;2) 分析人类参与者的背景(如STEM背景)对策略选择和胜率的影响;3) 观察人类参与者在面对不同对手(人类或LLM)时是否会调整策略。
📊 实验亮点
实验结果表明,人类玩家在Colonel Blotto博弈中胜过LLM。人类更倾向于使用校准良好的中级分配策略,而LLM则倾向于使用更简单、更刻板的策略。具有STEM背景的参与者在第一场比赛中表现更好。令人惊讶的是,人类几乎没有调整他们在不同对手组的比赛中的策略。
🎯 应用场景
该研究成果可应用于博弈论、人工智能和人机交互等领域。通过理解人类在策略博弈中的优势,可以设计更有效的AI算法,提升AI在复杂环境中的决策能力。此外,该研究也为设计更智能的人机协作系统提供了新的思路,促进人与AI的协同发展。
📄 摘要(原文)
The emergence of large language models (LLMs) has spurred economists to study how humans and LLMs behave in strategic settings. We organized a series of round-robin tournaments in the Colonel Blotto game. This game attracts game theorists' attention due to high-dimensional action space and the absence of pure strategy Nash equilibria. In the first tournament, more than 200 human participants competed against one another. In the second tournament, several popular LLMs were invited to submit strategies. In the third tournament, we matched the number of LLM strategies to the number submitted by humans. We find that humans more often employ better-calibrated intermediate-level allocation heuristics and outperform the simpler, more stereotyped strategies submitted by LLMs. Strategic sophistication is key to success if and only if the necessary level of reasoning depth is reached, while lower and higher levels of reasoning offer no clear advantage over the primitive strategies. Among humans, field of study weakly predicts success: participants with STEM backgrounds perform better in the first tournament. Surprisingly, humans almost do not adjust their strategies across tournaments with different sets of opponents. This result suggests that humans base their choices primarily on the game's rules rather than on the identity of their opponents, treating LLMs much like human competitors.