GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps

📄 arXiv: 2410.07765v1 📥 PDF

作者: Muhammad Umair Nasir, Steven James, Julian Togelius

分类: cs.CL, cs.AI

发布日期: 2024-10-10

备注: Accepted at 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks

🔗 代码/项目: GITHUB


💡 一句话要点

提出GameTraversalBenchmark,评估大型语言模型在2D游戏地图中的规划能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 路径规划 游戏AI 基准测试 规划能力评估

📋 核心要点

  1. 现有大型语言模型(LLMs)在规划能力方面仍有待考察,缺乏专门的评估基准。
  2. 论文提出GameTraversalBenchmark (GTB),利用2D网格游戏地图评估LLM的路径规划能力。
  3. 实验结果表明,GPT-4-Turbo在GTB上表现最佳,但即使是先进的推理模型仍面临挑战。

📝 摘要(中文)

大型语言模型(LLMs)最近在生成和理解自然语言方面取得了巨大成功。虽然它们也显示出在自然语言领域之外的潜力,但这些LLM在多大程度上以及以何种方式能够进行规划仍然是一个悬而未决的问题。我们通过提出GameTraversalBenchmark(GTB)来研究它们的规划能力,GTB是一个由各种2D网格游戏地图组成的基准。如果LLM能够以最少的步数和最少的生成错误遍历给定的目标,则它被认为是成功的。我们在GTB上评估了许多LLM,发现GPT-4-Turbo在GTB_Score(GTBS)上获得了最高的44.97%的分数,GTBS是一个综合了上述三个标准的综合分数。此外,我们初步测试了大型推理模型,即o1,它在GTBS上获得了67.84%的分数,表明该基准对于当前的模型仍然具有挑战性。代码、数据和文档可在https://github.com/umair-nasir14/Game-Traversal-Benchmark获得。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在复杂环境中的规划能力。现有方法缺乏针对LLM规划能力的专门评估基准,难以量化LLM在解决实际规划问题上的潜力。特别是在游戏环境中,如何让LLM有效地进行路径规划,并尽可能减少步数和错误,是一个重要的研究问题。

核心思路:论文的核心思路是构建一个2D网格游戏环境,作为评估LLM规划能力的基准。通过设计不同的地图和目标,要求LLM生成行动序列,从而完成路径规划任务。这种方法能够量化LLM在规划过程中的效率和准确性,并为未来的研究提供一个标准化的评估平台。

技术框架:GTB基准测试框架主要包含以下几个模块:1)地图生成器:用于生成各种复杂度的2D网格地图;2)任务定义模块:定义起始点、目标点以及其他约束条件;3)LLM接口:将游戏环境信息输入LLM,并接收LLM生成的行动序列;4)评估模块:根据行动序列计算步数、错误率等指标,并最终生成GTB_Score。整个流程是:地图生成 -> 任务定义 -> LLM规划 -> 路径执行 -> 性能评估。

关键创新:该论文的关键创新在于提出了GameTraversalBenchmark (GTB),这是一个专门用于评估LLM规划能力的基准。与以往的通用基准不同,GTB专注于路径规划任务,能够更精确地评估LLM在解决此类问题上的能力。此外,GTB还提供了一个综合评分指标GTBS,能够综合考虑步数、错误率等多个因素,从而更全面地评估LLM的性能。

关键设计:GTB的关键设计包括:1)多样化的地图设计,包含不同复杂度和结构的地图,以测试LLM在不同环境下的适应能力;2)可配置的任务参数,允许用户自定义起始点、目标点等,以满足不同的评估需求;3)综合评分指标GTBS,采用加权平均的方式,综合考虑步数、错误率等多个因素,以更全面地评估LLM的性能。具体权重设置未知,但目标是平衡效率和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4-Turbo在GTB基准测试中取得了最高的GTBS分数(44.97%),表明其在路径规划方面具有一定的能力。然而,即使是更先进的推理模型o1,其GTBS分数也仅为67.84%,表明该基准对于当前的模型仍然具有挑战性。这说明LLM在复杂环境下的规划能力仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过GTB基准测试,可以更好地评估和提升LLM在复杂环境中的规划能力,从而推动这些领域的智能化发展。未来,可以将GTB扩展到更复杂的三维环境,并引入更多动态因素,以更好地模拟真实世界的场景。

📄 摘要(原文)

Large language models (LLMs) have recently demonstrated great success in generating and understanding natural language. While they have also shown potential beyond the domain of natural language, it remains an open question as to what extent and in which way these LLMs can plan. We investigate their planning capabilities by proposing GameTraversalBenchmark (GTB), a benchmark consisting of diverse 2D grid-based game maps. An LLM succeeds if it can traverse through given objectives, with a minimum number of steps and a minimum number of generation errors. We evaluate a number of LLMs on GTB and found that GPT-4-Turbo achieved the highest score of 44.97% on GTB_Score (GTBS), a composite score that combines the three above criteria. Furthermore, we preliminarily test large reasoning models, namely o1, which scores $67.84\%$ on GTBS, indicating that the benchmark remains challenging for current models. Code, data, and documentation are available at https://github.com/umair-nasir14/Game-Traversal-Benchmark.