TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs

📄 arXiv: 2410.10479v2 📥 PDF

作者: Haochuan Wang, Xiachong Feng, Lei Li, Yu Guo, Zhanyue Qin, Dianbo Sui, Lingpeng Kong

分类: cs.AI, cs.GT

发布日期: 2024-10-14 (更新: 2025-05-27)


💡 一句话要点

TMGBench:一个系统性的博弈论基准,用于评估大语言模型的策略推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 策略推理 博弈论 基准测试 心智理论

📋 核心要点

  1. 现有博弈论基准测试集覆盖的博弈类型有限,存在数据泄露风险,且缺乏可扩展性,难以有效评估先进LLM。
  2. TMGBench通过覆盖144种2x2博弈类型、构建多样化场景和灵活组织博弈结构,提供更全面的评估。
  3. 实验表明,LLM在策略推理的准确性和一致性方面仍有不足,心智理论掌握程度各异,复杂博弈结构带来挑战。

📝 摘要(中文)

大语言模型(LLMs)的快速发展加速了其在推理领域的应用,其中策略推理受到了越来越多的关注。为了评估LLMs的策略推理能力,结构简洁的博弈论成为了许多研究人员的首选方法。然而,目前的研究通常只关注有限的博弈类型,导致博弈类型覆盖率较低。此外,经典的博弈场景存在数据泄露的风险,且基准通常缺乏可扩展性,无法充分评估最先进的模型。为了解决这些挑战,我们提出了TMGBench,其特点是全面的博弈类型覆盖、多样化的场景和灵活的博弈组织形式。具体来说,我们纳入了Robinson-Goforth拓扑总结的所有144种2x2博弈类型,并将它们构建为基准中的经典博弈;我们还为每个经典博弈合成了多样化、更高质量的博弈场景,称之为基于故事的博弈。最后,为了提供一个可持续的评估框架,以适应日益强大的LLMs,我们将上述博弈视为原子单元,并通过顺序、并行和嵌套结构将它们组织成更复杂的形式。我们对主流LLMs进行了全面评估,涵盖了理性推理、推理鲁棒性、心智理论能力以及复杂博弈形式下的推理测试。结果表明,LLMs在策略推理过程的准确性和一致性方面仍然存在缺陷,并且它们对心智理论的掌握程度也各不相同。此外,像o3-mini、Qwen3和deepseek-reasoner这样的SOTA模型也在顺序、并行和嵌套博弈结构中进行了评估,结果突显了TMGBench所带来的挑战。

🔬 方法详解

问题定义:现有评估LLM策略推理能力的博弈论基准存在三个主要问题:一是博弈类型覆盖不全面,无法充分评估LLM在不同策略场景下的表现;二是经典博弈场景存在数据泄露风险,导致评估结果可能高估LLM的真实能力;三是基准缺乏可扩展性,难以适应不断发展的LLM。这些问题限制了对LLM策略推理能力的准确评估和有效提升。

核心思路:TMGBench的核心思路是构建一个全面、多样化且可扩展的博弈论基准,以克服现有基准的局限性。通过覆盖所有144种2x2博弈类型,确保评估的全面性;通过合成高质量的基于故事的博弈场景,降低数据泄露的风险;通过灵活的博弈组织形式(顺序、并行、嵌套),提高基准的可扩展性,使其能够适应更强大的LLM。

技术框架:TMGBench的技术框架主要包括三个组成部分:经典博弈、基于故事的博弈和复杂博弈结构。经典博弈部分包含了Robinson-Goforth拓扑总结的所有144种2x2博弈类型,作为基准的基本单元。基于故事的博弈部分为每个经典博弈合成了多个高质量的场景,增加了评估的多样性。复杂博弈结构部分将经典博弈或基于故事的博弈通过顺序、并行和嵌套的方式组合成更复杂的博弈,提高了评估的难度和可扩展性。

关键创新:TMGBench最重要的技术创新点在于其全面的博弈类型覆盖和灵活的博弈组织形式。与现有基准相比,TMGBench覆盖了所有144种2x2博弈类型,提供了更全面的评估。此外,TMGBench通过顺序、并行和嵌套的方式组织博弈,构建了更复杂的博弈结构,提高了评估的难度和可扩展性,使其能够适应更强大的LLM。

关键设计:TMGBench的关键设计包括:1) 针对每种经典博弈,设计多个基于故事的场景,以增加评估的多样性并降低数据泄露的风险;2) 设计顺序、并行和嵌套三种博弈组织方式,以构建更复杂的博弈结构;3) 针对不同的博弈类型和场景,设计合理的评估指标,以全面评估LLM的策略推理能力。具体参数设置和损失函数等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主流LLM在策略推理的准确性和一致性方面仍有不足,心智理论掌握程度各异。SOTA模型如o3-mini、Qwen3和deepseek-reasoner在顺序、并行和嵌套博弈结构中面临挑战,突显了TMGBench的难度。具体的性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

TMGBench可用于评估和提升大语言模型在策略推理、决策制定和心智理论方面的能力。其潜在应用领域包括:智能体设计、人机协作、自动谈判、博弈论研究等。通过使用TMGBench,研究人员可以更准确地评估LLM的策略推理能力,并开发出更智能、更可靠的AI系统。未来,TMGBench可以扩展到更复杂的博弈类型和场景,以适应不断发展的LLM。

📄 摘要(原文)

The rapid advancement of large language models has accelerated their application in reasoning, with strategic reasoning drawing increasing attention. To evaluate the strategic reasoning capabilities of LLMs, game theory, with its concise structure, has become the preferred approach for many researchers. However, current research typically focuses on a limited selection of games, resulting in low coverage of game types. Additionally, classic game scenarios carry risks of data leakage, and the benchmarks used often lack extensibility, rendering them inadequate for evaluating state-of-the-art models. To address these challenges, we propose TMGBench, characterized by comprehensive game type coverage, diverse scenarios and flexible game organization. Specifically, we incorporate all 144 game types summarized by the Robinson-Goforth topology of 2x2 games, constructed as classic games in our benchmark; we also synthetize diverse, higher-quality game scenarios for each classic game, which we refer to as story-based games. Lastly, to provide a sustainable evaluation framework adaptable to increasingly powerful LLMs, we treat the aforementioned games as atomic units and organize them into more complex forms through sequential, parallel, and nested structures. We conducted a comprehensive evaluation of mainstream LLMs, covering tests on rational reasoning, reasoning robustness, Theory-of-Mind capabilities, and reasoning in complex game forms. The results revealed LLMs still have flaws in the accuracy and consistency of strategic reasoning processes, and their levels of mastery over Theory-of-Mind also vary. Additionally, SOTA models like o3-mini, Qwen3 and deepseek-reasoner, were also evaluated across the sequential, parallel, and nested game structures while the results highlighted the challenges posed by TMGBench.