LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts

作者: Junhao Chen, Jingbo Sun, Xiang Li, Haidong Xin, Yuhao Xue, Yibin Xu, Hao Zhao

分类: cs.CL

发布日期: 2025-09-20

备注: Accepted by EMNLP 2025 Findings

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LLMsPark：提出基于博弈论的大语言模型战略能力评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 博弈论 战略评估 多智能体 决策智能

📋 核心要点

现有LLM评估方法缺乏对交互式和战略性行为的全面考察，难以反映其真实智能水平。
LLMsPark通过构建博弈论环境，评估LLM在策略决策和社交互动中的表现，从而衡量其战略智能。
实验结果揭示了不同LLM在战略能力上的显著差异，为LLM的进一步发展提供了有价值的参考。

📝 摘要（中文）

随着大型语言模型(LLMs)在各种任务中不断进步，超越单一指标的全面评估变得越来越重要。为了充分评估LLM的智能，至关重要的是考察它们的交互动态和战略行为。我们提出了LLMsPark，一个基于博弈论的评估平台，用于衡量LLMs在经典博弈论环境中的决策策略和社会行为，提供了一个多智能体环境来探索战略深度。我们的系统使用排行榜排名和评分机制对15个领先的LLM（包括商业和开源模型）进行交叉评估。更高的分数反映了更强的推理和战略能力，揭示了不同模型的独特行为模式和性能差异。这项工作为评估LLM的战略智能引入了一个新的视角，丰富了现有的基准，并扩展了它们在交互式博弈论场景中的评估。

🔬 方法详解

问题定义：现有的大语言模型评估基准通常侧重于单一任务的性能指标，例如文本生成、问答等，缺乏对LLM在复杂交互环境下的战略决策能力的评估。现有方法难以衡量LLM在多智能体环境中的推理、规划和协作能力，无法充分反映其智能水平。因此，如何设计一个能够全面评估LLM战略智能的基准是一个重要的挑战。

核心思路：LLMsPark的核心思路是利用博弈论提供一个结构化的框架，用于评估LLM在战略互动中的行为。通过将LLM置于经典博弈论场景中，例如囚徒困境、公共物品博弈等，可以观察和分析LLM的决策策略、合作倾向以及对其他智能体行为的反应。这种方法能够更深入地了解LLM的推理能力、战略规划能力和社交智能。

技术框架：LLMsPark的整体架构包含以下几个主要模块：1) 博弈环境：构建了一系列经典的博弈论场景，例如囚徒困境、公共物品博弈等。2) LLM接口：提供统一的接口，允许不同的LLM参与博弈。3) 评估指标：设计了一系列评估指标，用于衡量LLM在博弈中的表现，例如得分、合作率等。4) 排行榜：根据LLM的评估结果生成排行榜，用于比较不同LLM的战略能力。

关键创新：LLMsPark最重要的技术创新点在于其将博弈论引入LLM评估领域，提供了一个新的视角来衡量LLM的战略智能。与传统的评估方法相比，LLMsPark能够更全面地考察LLM在复杂交互环境下的决策能力和社交行为。此外，LLMsPark还提供了一个统一的平台，方便研究人员比较不同LLM的战略能力。

关键设计：LLMsPark的关键设计包括：1) 博弈场景的选择：选择了多个经典的博弈论场景，以覆盖不同的战略互动类型。2) 评估指标的设计：设计了一系列能够反映LLM战略能力的评估指标，例如得分、合作率、策略复杂度等。3) LLM接口的标准化：提供统一的接口，方便不同的LLM参与博弈。4) 排行榜的生成：根据LLM的评估结果生成排行榜，用于比较不同LLM的战略能力。

📊 实验亮点

LLMsPark对15个领先的LLM进行了评估，结果显示不同模型在战略能力上存在显著差异。例如，某些模型在合作博弈中表现出色，而另一些模型则更倾向于竞争策略。排行榜清晰地展示了各模型的优势和劣势，为研究人员提供了宝贵的参考信息。该基准测试和排名已公开在https://llmsparks.github.io/。

🎯 应用场景

LLMsPark的研究成果可应用于开发更智能、更具协作能力的人工智能系统。例如，在自动驾驶领域，可以利用LLMsPark评估不同LLM在交通博弈中的决策能力，从而提高自动驾驶系统的安全性。在智能客服领域，可以利用LLMsPark评估不同LLM在客户服务场景中的沟通和协作能力，从而提高客户满意度。此外，LLMsPark还可以用于研究LLM的社会行为和伦理问题。

📄 摘要（原文）

As large language models (LLMs) advance across diverse tasks, the need for comprehensive evaluation beyond single metrics becomes increasingly important. To fully assess LLM intelligence, it is crucial to examine their interactive dynamics and strategic behaviors. We present LLMsPark, a game theory-based evaluation platform that measures LLMs' decision-making strategies and social behaviors in classic game-theoretic settings, providing a multi-agent environment to explore strategic depth. Our system cross-evaluates 15 leading LLMs (both commercial and open-source) using leaderboard rankings and scoring mechanisms. Higher scores reflect stronger reasoning and strategic capabilities, revealing distinct behavioral patterns and performance differences across models. This work introduces a novel perspective for evaluating LLMs' strategic intelligence, enriching existing benchmarks and broadening their assessment in interactive, game-theoretic scenarios. The benchmark and rankings are publicly available at https://llmsparks.github.io/.

LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册