Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

📄 arXiv: 2407.07796v2 📥 PDF

作者: Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper

分类: cs.AI, cs.CL, cs.LG, cs.NE

发布日期: 2024-07-10 (更新: 2024-07-11)


💡 一句话要点

提出基于网格游戏竞赛的LLM评估基准,用于评估LLM的规则理解和战略思维能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评估基准 网格游戏 规则理解 战略思维 决策能力 人工智能 博弈论

📋 核心要点

  1. 现有LLM评估方法难以有效衡量其在复杂规则理解和战略决策方面的能力。
  2. 构建基于网格游戏的LLM评估框架,通过模拟LLM之间的博弈来评估其智能水平。
  3. 实验结果表明,不同LLM在不同游戏和提示类型下表现差异显著,揭示了其优势与不足。

📝 摘要(中文)

本文提出了一种新颖且可扩展的大型语言模型(LLM)基准,该基准通过井字棋、四子棋和五子棋等网格游戏实现。开源游戏模拟代码可在GitHub上获取,允许LLM进行竞争,并生成JSON、CSV、TXT和PNG格式的详细数据文件,用于排行榜排名和进一步分析。本文展示了包括Anthropic的Claude 3.5 Sonnet和Claude 3 Sonnet、Google的Gemini 1.5 Pro和Gemini 1.5 Flash、OpenAI的GPT-4 Turbo和GPT-4o以及Meta的Llama3-70B等领先LLM之间的游戏结果。同时鼓励提交其他LLM的结果。总共模拟了2310场比赛(7个LLM和一个随机玩家之间每对进行5次会话),涵盖三种类型的游戏,使用三种不同的提示类型:列表、插图和图像。结果表明,LLM在不同游戏和提示类型中的表现存在显著差异,分析涵盖胜率和取消资格率、错失机会分析和无效移动分析。排行榜和结果矩阵数据的详细信息可在GitHub上作为开放获取数据获得。本研究增强了我们对LLM在玩未专门训练的游戏方面的能力的理解,有助于评估其规则理解和战略思维。在通往通用人工智能(AGI)的道路上,本研究为未来探索其在复杂决策场景中的效用奠定了基础,阐明了它们的战略思维能力,并为进一步探究基于游戏框架内LLM的局限性提供了方向。

🔬 方法详解

问题定义:现有的大型语言模型评估方法通常侧重于语言理解和生成任务,缺乏对模型在复杂规则环境下的推理和决策能力的有效评估。现有方法难以衡量LLM在战略规划、风险评估和适应性学习等方面的能力,而这些能力对于通用人工智能至关重要。

核心思路:本文的核心思路是将LLM置于网格游戏中,通过模拟LLM之间的博弈来评估其智能水平。这种方法能够有效地考察LLM在规则理解、战略规划、风险评估和适应性学习等方面的能力。通过分析LLM在游戏中的行为,可以深入了解其在复杂环境下的决策过程。

技术框架:该评估框架主要包含以下几个模块:1) 游戏模拟器:负责模拟各种网格游戏,例如井字棋、四子棋和五子棋。2) LLM接口:提供与不同LLM交互的接口,允许LLM参与游戏。3) 提示工程模块:负责生成不同类型的提示,例如列表、插图和图像,以引导LLM进行游戏。4) 评估指标模块:负责计算各种评估指标,例如胜率、取消资格率、错失机会率和无效移动率。5) 数据分析模块:负责分析游戏数据,生成排行榜和结果矩阵。

关键创新:该研究的关键创新在于提出了一种基于网格游戏的LLM评估基准,该基准具有可扩展性和可定制性,可以用于评估各种LLM在不同游戏和提示类型下的表现。此外,该研究还提供了一套全面的评估指标,可以用于深入分析LLM在游戏中的行为。

关键设计:在实验设计方面,作者选择了三种不同复杂度的网格游戏:井字棋、四子棋和五子棋。同时,作者使用了三种不同的提示类型:列表、插图和图像,以考察LLM在不同提示下的表现。对于每个LLM,作者都进行了多次游戏模拟,并计算了各种评估指标。此外,作者还提供了一个开源游戏模拟代码,允许其他研究者参与到该评估基准的建设中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同LLM在不同游戏和提示类型下的表现存在显著差异。例如,某些LLM在井字棋游戏中表现出色,但在五子棋游戏中表现不佳。此外,不同提示类型也会影响LLM的表现。这些结果揭示了LLM在规则理解和战略思维方面的局限性,为未来的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于评估和提升LLM在复杂决策场景下的能力,例如智能客服、自动驾驶、金融风险管理等领域。通过游戏化的评估方式,可以更直观地了解LLM的优势与不足,并为未来的模型改进提供指导。

📄 摘要(原文)

We introduce a novel and extensible benchmark for large language models (LLMs) through grid-based games such as Tic-Tac-Toe, Connect Four, and Gomoku. The open-source game simulation code, available on GitHub, allows LLMs to compete and generates detailed data files in JSON, CSV, TXT, and PNG formats for leaderboard rankings and further analysis. We present the results of games among leading LLMs, including Claude 3.5 Sonnet and Claude 3 Sonnet by Anthropic, Gemini 1.5 Pro and Gemini 1.5 Flash by Google, GPT-4 Turbo and GPT-4o by OpenAI, and Llama3-70B by Meta. We also encourage submissions of results from other LLMs. In total, we simulated 2,310 matches (5 sessions for each pair among 7 LLMs and a random player) across three types of games, using three distinct prompt types: list, illustration, and image. The results revealed significant variations in LLM performance across different games and prompt types, with analysis covering win and disqualification rates, missed opportunity analysis, and invalid move analysis. The details of the leaderboard and result matrix data are available as open-access data on GitHub. This study enhances our understanding of LLMs' capabilities in playing games they were not specifically trained for, helping to assess their rule comprehension and strategic thinking. On the path to Artificial General Intelligence (AGI), this study lays the groundwork for future exploration into their utility in complex decision-making scenarios, illuminating their strategic thinking abilities and offering directions for further inquiry into the limits of LLMs within game-based frameworks.