lmgame-Bench: How Good are LLMs at Playing Games?
作者: Lanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang
分类: cs.AI
发布日期: 2025-05-21 (更新: 2025-06-03)
🔗 代码/项目: GITHUB
💡 一句话要点
lmgame-Bench:评估LLM在游戏中的表现,解决评估难题并促进能力迁移
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 游戏AI 强化学习 评估基准 知识迁移
📋 核心要点
- 现有方法直接将LLM应用于游戏评估,但存在视觉感知差、提示敏感和数据污染等问题,导致评估结果不可靠。
- lmgame-Bench通过统一的API提供多种游戏,并结合轻量级感知和记忆模块,稳定提示并消除数据污染,从而实现可靠评估。
- 实验表明,lmgame-Bench具有挑战性且能有效区分不同LLM,且在单个游戏上的强化学习可以迁移到其他游戏和规划任务。
📝 摘要(中文)
本文研究了使用流行视频游戏评估大型语言模型(LLM)时面临的主要挑战,发现直接将LLM应用于游戏无法有效评估,原因包括视觉感知脆弱、提示敏感以及潜在的数据污染。为此,作者提出了lmgame-Bench,旨在将游戏转化为可靠的评估工具。lmgame-Bench包含一系列平台、解谜和叙事游戏,通过统一的Gym风格API提供,并配有轻量级的感知和记忆支架,旨在稳定提示方差并消除污染。对13个领先模型的评估表明,lmgame-Bench具有挑战性,同时也能很好地区分模型。相关性分析表明,每个游戏都探测了独特的能力组合。更有趣的是,在lmgame-Bench中的单个游戏上进行强化学习可以迁移到未见过的游戏和外部规划任务。
🔬 方法详解
问题定义:现有方法直接将LLM应用于视频游戏,以评估其感知、记忆和规划能力。然而,这种直接应用面临三大痛点:一是LLM的视觉感知能力脆弱,容易受到游戏环境变化的影响;二是LLM对提示语非常敏感,微小的提示语变化可能导致性能大幅波动;三是存在数据污染的风险,LLM可能已经在训练数据中见过类似的游戏场景或解决方案,导致评估结果失真。这些问题使得利用视频游戏评估LLM的真实能力变得困难。
核心思路:lmgame-Bench的核心思路是将游戏环境进行抽象和简化,通过统一的Gym风格API提供游戏接口,并引入轻量级的感知和记忆支架,从而降低LLM对视觉细节的依赖,稳定提示语的影响,并减少数据污染的可能性。通过这种方式,lmgame-Bench能够更准确地评估LLM在游戏中的推理、规划和决策能力。
技术框架:lmgame-Bench包含三个主要组成部分:一是游戏套件,包括平台、解谜和叙事等多种类型的游戏;二是统一的Gym风格API,为LLM提供一致的游戏交互接口;三是轻量级的感知和记忆支架,用于处理游戏中的视觉信息,并为LLM提供必要的记忆功能。LLM通过API与游戏环境交互,感知支架处理视觉输入,记忆支架存储游戏状态信息,LLM根据这些信息做出决策,并执行相应的动作。
关键创新:lmgame-Bench的关键创新在于其对游戏评估流程的标准化和模块化。通过统一的API和轻量级的支架,lmgame-Bench降低了LLM与游戏环境交互的复杂性,使得评估过程更加可控和可靠。此外,lmgame-Bench的设计考虑了数据污染问题,通过选择新的游戏或修改现有游戏,降低了LLM在训练数据中见过类似场景的可能性。
关键设计:lmgame-Bench的关键设计包括:1) 游戏选择:选择了平台、解谜和叙事等多种类型的游戏,以评估LLM在不同方面的能力。2) API设计:采用了Gym风格的API,使得LLM可以像与OpenAI Gym环境交互一样与游戏交互。3) 感知支架:使用轻量级的卷积神经网络或视觉Transformer来处理游戏中的视觉信息,提取关键特征。4) 记忆支架:使用循环神经网络或Transformer来存储游戏状态信息,为LLM提供必要的记忆功能。5) 提示工程:设计了一系列提示语模板,以引导LLM进行游戏,并减少提示语变化对性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,lmgame-Bench能够有效区分不同LLM在游戏中的表现,并且每个游戏都探测了LLM不同的能力组合。更重要的是,在lmgame-Bench中的单个游戏上进行强化学习可以迁移到未见过的游戏和外部规划任务,这表明该平台可以促进LLM在不同任务之间的知识迁移。
🎯 应用场景
lmgame-Bench可用于评估和比较不同LLM在游戏环境中的表现,帮助研究人员了解LLM的优势和不足。此外,该平台还可用于开发和训练更强大的游戏AI,并探索LLM在其他需要感知、记忆和规划能力的领域的应用,例如机器人控制、自动驾驶和智能助手等。
📄 摘要(原文)
Playing video games requires perception, memory, and planning, exactly the faculties modern large language model (LLM) agents are expected to master. We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons -- brittle vision perception, prompt sensitivity, and potential data contamination. We introduce lmgame-Bench to turn games into reliable evaluations. lmgame-Bench features a suite of platformer, puzzle, and narrative games delivered through a unified Gym-style API and paired with lightweight perception and memory scaffolds, and is designed to stabilize prompt variance and remove contamination. Across 13 leading models, we show lmgame-Bench is challenging while still separating models well. Correlation analysis shows that every game probes a unique blend of capabilities often tested in isolation elsewhere. More interestingly, performing reinforcement learning on a single game from lmgame-Bench transfers both to unseen games and to external planning tasks. Our evaluation code is available at https://github.com/lmgame-org/GamingAgent/lmgame-bench.