Measuring General Intelligence with Generated Games

作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin

分类: cs.AI

发布日期: 2025-05-12

💡 一句话要点

提出gg-bench：通过生成游戏评估语言模型的通用智能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 通用智能评估 语言模型 强化学习 游戏生成 动态基准

📋 核心要点

现有静态基准难以全面评估语言模型的通用推理能力，缺乏灵活性和泛化性。
gg-bench通过LLM生成游戏描述和代码，并训练RL智能体，构建动态、可扩展的评估环境。
实验表明，即使是GPT-4o等先进LLM在gg-bench上的胜率也较低，突显了该基准的挑战性。

📝 摘要（中文）

本文提出gg-bench，一个用于评估语言模型通用推理能力的游戏环境集合。与大多数静态基准不同，gg-bench是一个数据生成过程，可以随意生成新的评估实例。具体来说，gg-bench通过以下方式合成生成：(1) 使用大型语言模型(LLM)生成新颖游戏的自然语言描述，(2) 使用LLM以代码形式将每个游戏实现为Gym环境，以及(3) 通过在生成的游戏上进行自博弈来训练强化学习(RL)智能体。我们通过语言模型与这些RL智能体的胜率来评估语言模型，通过提示模型游戏描述、当前棋盘状态和有效移动列表，然后模型输出希望采取的移动。gg-bench具有挑战性：最先进的LLM，如GPT-4o和Claude 3.7 Sonnet，在使用上下文学习时在gg-bench上的胜率为7-9%，而o1、o3-mini和DeepSeek-R1等推理模型的平均胜率为31-36%。我们发布生成的游戏、数据生成过程和评估代码，以支持未来的建模工作和基准的扩展。

🔬 方法详解

问题定义：现有评估语言模型智能的方法主要依赖于静态数据集，这些数据集无法充分覆盖各种推理场景，并且容易被模型记忆。因此，需要一种能够动态生成评估实例，并能有效衡量模型通用智能的方法。

核心思路：本文的核心思路是利用大型语言模型（LLM）的生成能力，自动创建新的游戏环境，并使用强化学习（RL）训练智能体作为评估的基准。通过比较语言模型与RL智能体的胜率，来衡量语言模型在这些新游戏中的推理能力。这种方法能够动态生成评估实例，避免了静态数据集的局限性。

技术框架：gg-bench的整体框架包含三个主要阶段：1) 游戏生成：使用LLM生成新游戏的自然语言描述。2) 游戏实现：使用LLM将游戏描述转化为可执行的Gym环境代码。3) 智能体训练：使用RL算法（如自博弈）在生成的游戏环境中训练智能体。评估时，将游戏描述、当前状态和有效动作列表提供给待评估的语言模型，并根据其输出的动作与RL智能体进行对战，计算胜率。

关键创新：gg-bench的关键创新在于其动态生成评估实例的能力。与传统的静态基准相比，gg-bench可以根据需要生成无限数量的新游戏，从而更全面地评估语言模型的通用推理能力。此外，使用RL智能体作为评估基准，可以更客观地衡量语言模型的性能。

关键设计：在游戏生成阶段，使用LLM生成具有不同规则和目标的游戏描述，并控制游戏的复杂度和多样性。在游戏实现阶段，需要确保LLM生成的代码能够正确运行，并符合Gym环境的规范。在智能体训练阶段，选择合适的RL算法和超参数，以确保智能体能够达到一定的水平。评估时，需要设计合适的提示方式，将游戏信息传递给语言模型，并确保模型能够理解游戏规则并做出合理的决策。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是GPT-4o和Claude 3.7 Sonnet等最先进的LLM，在使用上下文学习时在gg-bench上的胜率也仅为7-9%。而专门的推理模型，如o1、o3-mini和DeepSeek-R1，平均胜率也只有31-36%。这表明gg-bench对现有语言模型提出了很大的挑战，并为未来的研究提供了明确的方向。

🎯 应用场景

gg-bench可用于评估和比较不同语言模型的通用推理能力，指导模型设计和训练。此外，该方法还可应用于其他需要动态生成评估实例的领域，如机器人控制、任务规划等。通过不断扩展gg-bench的游戏类型和难度，可以推动通用人工智能的发展。

📄 摘要（原文）

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Measuring General Intelligence with Generated Games

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理