Measuring General Intelligence with Generated Games
作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin
分类: cs.AI
发布日期: 2025-05-12
💡 一句话要点
提出gg-bench以评估语言模型的通用推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用推理 游戏环境 动态评估 强化学习 语言模型
📋 核心要点
- 现有的评估方法多为静态基准,缺乏动态生成能力,限制了评估的多样性和适应性。
- 论文提出gg-bench,通过大型语言模型生成游戏环境,支持实时生成新的评估实例,增强了评估的灵活性。
- 实验结果显示,最先进的语言模型在gg-bench上的胜率较低,而推理模型表现更佳,显示出不同模型的推理能力差异。
📝 摘要(中文)
我们提出了gg-bench,这是一个旨在评估语言模型通用推理能力的游戏环境集合。与大多数静态基准测试不同,gg-bench是一个数据生成过程,可以随时生成新的评估实例。具体而言,gg-bench通过(1)使用大型语言模型生成新游戏的自然语言描述,(2)利用该模型将每个游戏实现为Gym环境的代码,以及(3)通过自我对弈训练强化学习代理来合成生成。我们通过模型在游戏描述、当前棋盘状态和有效移动列表的提示下与这些RL代理的胜率来评估语言模型。gg-bench具有挑战性:最先进的LLM如GPT-4o和Claude 3.7 Sonnet在gg-bench上的胜率为7-9%,而推理模型如o1、o3-mini和DeepSeek-R1的平均胜率为31-36%。我们发布了生成的游戏、数据生成过程和评估代码,以支持未来的建模工作和基准扩展。
🔬 方法详解
问题定义:本论文旨在解决现有评估语言模型通用推理能力的静态性问题。现有方法往往无法适应多变的评估需求,限制了模型的全面评估。
核心思路:论文的核心思路是利用大型语言模型生成动态的游戏环境,通过这种方式实现实时生成新的评估实例,以提高评估的多样性和有效性。
技术框架:整体架构包括三个主要模块:首先,使用LLM生成游戏的自然语言描述;其次,将这些描述实现为Gym环境中的代码;最后,通过自我对弈训练强化学习代理以进行评估。
关键创新:最重要的技术创新在于gg-bench的动态数据生成能力,使得评估过程不再依赖于静态数据集,从而能够更全面地评估语言模型的推理能力。
关键设计:在设计中,采用了LLM生成游戏描述和代码的方式,确保生成的游戏具有多样性和复杂性;同时,强化学习代理的训练通过自我对弈进行,提升了评估的真实性和挑战性。
📊 实验亮点
实验结果表明,最先进的语言模型在gg-bench上的胜率仅为7-9%,而推理模型如o1、o3-mini和DeepSeek-R1的胜率则达到31-36%。这一结果显示了不同模型在推理能力上的显著差异,强调了gg-bench作为评估工具的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、游戏设计和人工智能评估等。gg-bench的动态生成能力可以为模型的持续改进提供支持,推动智能体在复杂环境中的学习和适应能力的提升,具有重要的实际价值和未来影响。
📄 摘要(原文)
We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.