MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
作者: Kevin Wang, Anna Thöni, Benjamin Kempinski, Bobby Cheng, Jianzhu Yao, Benjamin Finch, Leon Guertler, Viraj Nadkarni, Yihan Jiang, Aliaksei Korshuk, Alexander Buyantuev, Ilya Makarov, Siyuan Wu, Yu-Chi Cheng, Yan-Ru Ju, Ti-Rong Wu, I-Hsuan Chu, Yu-Yu Yang, I-Chen Wu, Yitian Huang, Qinlu Cao, Yiheng Sun, Yuhong Dai, Hongkun Yao, Jingxuan Fu, Jiwei Zhang, Hao Liao, Mossimo Ebeling, Govind Arun, Sadhvik Bathini, Mihir S Arya, Avinash Anish, Aditya Ranjan, Kirtana Sunil Phatnani, Paval KS, Vrushali Mehta, Aravind S, Nikhil Arora, Tanya Upadhyay, Amol Bandagale, Yuan Lu, ChunEn Hsiao, YuTing Lin, Arvin Chung, Jerry John Thomas, Mathieu Laurière, Leshem Choshen, Yoram Bachrach, Pramod Viswanath, Maria Polukarov, Cheston Tan, Tal Kachman, Atlas Wang
分类: cs.AI
发布日期: 2026-05-28
💡 一句话要点
MINDGAMES:用于评估多智能体LLM中社会和战略推理的实时竞技场
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 社会推理 战略推理 评估平台 心理理论 博弈论
📋 核心要点
- 现有LLM智能体评估方法依赖静态场景或单一游戏,无法充分评估其在复杂、持续交互中的社会和战略推理能力。
- Mindgames平台通过多游戏竞技场,提供统一交互界面和评估体系,模拟真实世界多智能体环境,考察信念归因、对手建模等能力。
- 实验结果表明,LLM智能体在规则遵守方面存在瓶颈,且排行榜有效性因环境而异,部分环境奖励对对手错误的鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被部署为交互式智能体,但它们在扩展交互中进行社会和战略推理的能力仍然知之甚少。现有的评估依赖于静态小插曲或单一游戏基准,无法捕捉真实世界多智能体环境所需的持续、多方面的推理。我们引入了Mindgames,一个多游戏竞技场和评估平台,用于LLM智能体,它将与“心理理论”相关的互补推理需求进行操作化:隐藏信息下的信念归因,通过重复战略交互进行的对手建模,知识不对称下的合作推理,以及社会演绎中的持续欺骗。Mindgames建立在TextArena之上,提供统一的交互界面、基于TrueSkill的评分以及跨四个游戏环境的完整轨迹日志。我们通过在主要AI会议上举办的2025年竞赛周期来实例化Mindgames,该竞赛评估了来自76个团队的944个提交的智能体,涉及四个游戏:Colonel Blotto、Iterated Prisoner's Dilemma、Codenames和Secret Mafia。我们的分析揭示了智能体级别和评估级别的局限性:脆弱的规则遵守仍然是一个主要的瓶颈,表现最佳的系统反复依赖于显式的结构支架,并且排行榜的有效性在不同环境中差异很大。特别是,失败频繁的环境可能会奖励对对手错误的鲁棒性,而不是战略能力,Secret Mafia在本周期中表现出明显的错误生存混淆。我们发布了一个包含29,571个多智能体游戏的数据集,其中包含回合级别的观察、行动和奖励,以及MG-Ref,一种确定性的离线锦标赛协议,该协议根据顶级、低错误的Stage II提交的冻结参考池对新智能体进行评分,采用与此分析中使用的相同的错误归因视角。
🔬 方法详解
问题定义:现有的大型语言模型在多智能体环境中的社会和战略推理能力评估不足。现有的评估方法,如静态场景或单一游戏,无法捕捉到真实世界中多智能体交互的复杂性和持续性。因此,需要一个更全面、动态的评估平台来测试LLM智能体在复杂交互中的推理能力。
核心思路:Mindgames的核心思路是创建一个多游戏竞技场,模拟真实世界的多智能体交互环境。通过在不同的游戏中评估LLM智能体的表现,可以更全面地了解它们在社会和战略推理方面的能力。该平台还提供了一个统一的交互界面和评估体系,方便研究人员进行实验和比较。
技术框架:Mindgames平台建立在TextArena之上,包含以下主要模块:1) 多游戏环境:包括Colonel Blotto、Iterated Prisoner's Dilemma、Codenames和Secret Mafia等游戏,涵盖了不同的社会和战略推理需求。2) 统一交互界面:提供一致的API,方便LLM智能体与游戏环境进行交互。3) 基于TrueSkill的评分系统:用于评估LLM智能体在游戏中的表现,并生成排行榜。4) 轨迹日志:记录所有游戏过程中的观察、行动和奖励,方便研究人员进行分析。5) MG-Ref:一种确定性的离线锦标赛协议,用于评估新智能体,并与已有的智能体进行比较。
关键创新:Mindgames的关键创新在于其多游戏竞技场的设计,能够更全面地评估LLM智能体在社会和战略推理方面的能力。此外,该平台还提供了一个统一的交互界面和评估体系,方便研究人员进行实验和比较。MG-Ref协议的引入,使得可以离线评估新的智能体,并与已有的智能体进行公平的比较。
关键设计:Mindgames的关键设计包括:1) 游戏选择:选择Colonel Blotto、Iterated Prisoner's Dilemma、Codenames和Secret Mafia等游戏,是因为这些游戏涵盖了不同的社会和战略推理需求,例如信念归因、对手建模、合作推理和欺骗。2) 评分系统:使用TrueSkill评分系统,可以更准确地评估LLM智能体在游戏中的表现。3) 错误归因:在评估过程中,考虑了智能体由于规则理解错误而导致的失败,并对这些错误进行了归因。
🖼️ 关键图片
📊 实验亮点
Mindgames竞赛评估了来自76个团队的944个智能体,揭示了LLM智能体在规则遵守方面的脆弱性。实验表明,排行榜的有效性因游戏环境而异,某些环境中,对对手错误的鲁棒性比战略能力更重要。该研究发布了包含29,571个多智能体游戏的数据集,为后续研究提供了宝贵资源。
🎯 应用场景
该研究成果可应用于开发更智能、更具社会意识的AI智能体,例如在人机协作、谈判、决策支持等领域。通过Mindgames平台,可以系统地评估和提升LLM智能体在复杂社会环境中的推理能力,从而推动AI技术在现实世界中的应用。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind'': belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner's Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.