Measuring General Intelligence with Generated Games

作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin

分类: cs.AI

发布日期: 2025-05-12

💡 一句话要点

提出gg-bench以评估语言模型的通用推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 通用推理 游戏环境 动态评估 强化学习 语言模型

📋 核心要点

现有的评估方法多为静态基准，缺乏动态生成能力，限制了评估的多样性和适应性。
论文提出gg-bench，通过大型语言模型生成游戏环境，支持实时生成新的评估实例，增强了评估的灵活性。
实验结果显示，最先进的语言模型在gg-bench上的胜率较低，而推理模型表现更佳，显示出不同模型的推理能力差异。

📝 摘要（中文）

我们提出了gg-bench，这是一个旨在评估语言模型通用推理能力的游戏环境集合。与大多数静态基准测试不同，gg-bench是一个数据生成过程，可以随时生成新的评估实例。具体而言，gg-bench通过（1）使用大型语言模型生成新游戏的自然语言描述，（2）利用该模型将每个游戏实现为Gym环境的代码，以及（3）通过自我对弈训练强化学习代理来合成生成。我们通过模型在游戏描述、当前棋盘状态和有效移动列表的提示下与这些RL代理的胜率来评估语言模型。gg-bench具有挑战性：最先进的LLM如GPT-4o和Claude 3.7 Sonnet在gg-bench上的胜率为7-9%，而推理模型如o1、o3-mini和DeepSeek-R1的平均胜率为31-36%。我们发布了生成的游戏、数据生成过程和评估代码，以支持未来的建模工作和基准扩展。

🔬 方法详解

问题定义：本论文旨在解决现有评估语言模型通用推理能力的静态性问题。现有方法往往无法适应多变的评估需求，限制了模型的全面评估。

核心思路：论文的核心思路是利用大型语言模型生成动态的游戏环境，通过这种方式实现实时生成新的评估实例，以提高评估的多样性和有效性。

技术框架：整体架构包括三个主要模块：首先，使用LLM生成游戏的自然语言描述；其次，将这些描述实现为Gym环境中的代码；最后，通过自我对弈训练强化学习代理以进行评估。

关键创新：最重要的技术创新在于gg-bench的动态数据生成能力，使得评估过程不再依赖于静态数据集，从而能够更全面地评估语言模型的推理能力。

关键设计：在设计中，采用了LLM生成游戏描述和代码的方式，确保生成的游戏具有多样性和复杂性；同时，强化学习代理的训练通过自我对弈进行，提升了评估的真实性和挑战性。

📊 实验亮点

实验结果表明，最先进的语言模型在gg-bench上的胜率仅为7-9%，而推理模型如o1、o3-mini和DeepSeek-R1的胜率则达到31-36%。这一结果显示了不同模型在推理能力上的显著差异，强调了gg-bench作为评估工具的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、游戏设计和人工智能评估等。gg-bench的动态生成能力可以为模型的持续改进提供支持，推动智能体在复杂环境中的学习和适应能力的提升，具有重要的实际价值和未来影响。

📄 摘要（原文）

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Measuring General Intelligence with Generated Games

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册