Measuring General Intelligence with Generated Games
作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
分类: cs.AI
发布日期: 2025-05-12
💡 一句话要点
提出gg-bench:通过生成游戏评估语言模型的通用智能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用智能评估 语言模型 强化学习 游戏生成 动态基准
📋 核心要点
- 现有静态基准难以全面评估语言模型的通用推理能力,缺乏灵活性和泛化性。
- gg-bench通过LLM生成游戏描述和代码,并训练RL智能体,构建动态、可扩展的评估环境。
- 实验表明,即使是GPT-4o等先进LLM在gg-bench上的胜率也较低,突显了该基准的挑战性。
📝 摘要(中文)
本文提出gg-bench,一个用于评估语言模型通用推理能力的游戏环境集合。与大多数静态基准不同,gg-bench是一个数据生成过程,可以随意生成新的评估实例。具体来说,gg-bench通过以下方式合成生成:(1) 使用大型语言模型(LLM)生成新颖游戏的自然语言描述,(2) 使用LLM以代码形式将每个游戏实现为Gym环境,以及(3) 通过在生成的游戏上进行自博弈来训练强化学习(RL)智能体。我们通过语言模型与这些RL智能体的胜率来评估语言模型,通过提示模型游戏描述、当前棋盘状态和有效移动列表,然后模型输出希望采取的移动。gg-bench具有挑战性:最先进的LLM,如GPT-4o和Claude 3.7 Sonnet,在使用上下文学习时在gg-bench上的胜率为7-9%,而o1、o3-mini和DeepSeek-R1等推理模型的平均胜率为31-36%。我们发布生成的游戏、数据生成过程和评估代码,以支持未来的建模工作和基准的扩展。
🔬 方法详解
问题定义:现有评估语言模型智能的方法主要依赖于静态数据集,这些数据集无法充分覆盖各种推理场景,并且容易被模型记忆。因此,需要一种能够动态生成评估实例,并能有效衡量模型通用智能的方法。
核心思路:本文的核心思路是利用大型语言模型(LLM)的生成能力,自动创建新的游戏环境,并使用强化学习(RL)训练智能体作为评估的基准。通过比较语言模型与RL智能体的胜率,来衡量语言模型在这些新游戏中的推理能力。这种方法能够动态生成评估实例,避免了静态数据集的局限性。
技术框架:gg-bench的整体框架包含三个主要阶段:1) 游戏生成:使用LLM生成新游戏的自然语言描述。2) 游戏实现:使用LLM将游戏描述转化为可执行的Gym环境代码。3) 智能体训练:使用RL算法(如自博弈)在生成的游戏环境中训练智能体。评估时,将游戏描述、当前状态和有效动作列表提供给待评估的语言模型,并根据其输出的动作与RL智能体进行对战,计算胜率。
关键创新:gg-bench的关键创新在于其动态生成评估实例的能力。与传统的静态基准相比,gg-bench可以根据需要生成无限数量的新游戏,从而更全面地评估语言模型的通用推理能力。此外,使用RL智能体作为评估基准,可以更客观地衡量语言模型的性能。
关键设计:在游戏生成阶段,使用LLM生成具有不同规则和目标的游戏描述,并控制游戏的复杂度和多样性。在游戏实现阶段,需要确保LLM生成的代码能够正确运行,并符合Gym环境的规范。在智能体训练阶段,选择合适的RL算法和超参数,以确保智能体能够达到一定的水平。评估时,需要设计合适的提示方式,将游戏信息传递给语言模型,并确保模型能够理解游戏规则并做出合理的决策。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是GPT-4o和Claude 3.7 Sonnet等最先进的LLM,在使用上下文学习时在gg-bench上的胜率也仅为7-9%。而专门的推理模型,如o1、o3-mini和DeepSeek-R1,平均胜率也只有31-36%。这表明gg-bench对现有语言模型提出了很大的挑战,并为未来的研究提供了明确的方向。
🎯 应用场景
gg-bench可用于评估和比较不同语言模型的通用推理能力,指导模型设计和训练。此外,该方法还可应用于其他需要动态生成评估实例的领域,如机器人控制、任务规划等。通过不断扩展gg-bench的游戏类型和难度,可以推动通用人工智能的发展。
📄 摘要(原文)
We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.