G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

📄 arXiv: 2505.13426v1 📥 PDF

作者: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang

分类: cs.CV

发布日期: 2025-05-19

备注: 21 pages, 14 figures, code released at https://github.com/chenllliang/G1

🔗 代码/项目: GITHUB


💡 一句话要点

G1:通过强化学习引导视觉-语言模型感知与推理能力,提升交互式游戏环境决策能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 强化学习 交互式环境 感知推理 自主智能体

📋 核心要点

  1. 现有视觉-语言模型在交互式视觉环境中决策能力不足,存在“知行”差距,限制了其作为自主智能体的潜力。
  2. 论文提出VLM-Gym环境和G1模型,通过强化学习和感知增强的冷启动先验,提升模型在多样化游戏中的决策能力。
  3. 实验结果表明,G1模型在所有游戏中均超越其教师模型,并优于领先的专有模型,如Claude-3.7-Sonnet-Thinking。

📝 摘要(中文)

视觉-语言模型(VLMs)在许多直接多模态任务中表现出色,但难以将这种能力转化为在交互式、视觉丰富的环境(如游戏)中进行有效决策。这种“知行”差距严重限制了它们作为自主智能体的潜力,即使是领先的VLMs在简单的游戏中也表现不佳。为了解决这个问题,我们引入了VLM-Gym,这是一个精选的强化学习(RL)环境,具有多样化的视觉游戏、统一的接口和可调整的组合难度,专门为可扩展的多游戏并行训练而设计。利用VLM-Gym,我们使用纯RL驱动的自我进化训练G0模型,展示了涌现的感知和推理模式。为了进一步缓解游戏多样性带来的挑战,我们开发了G1模型。G1在RL微调之前结合了感知增强的冷启动先验。我们得到的G1模型始终超越了其教师模型,并在所有游戏中优于领先的专有模型,如Claude-3.7-Sonnet-Thinking。系统分析揭示了一个有趣的发现:感知和推理能力在整个RL训练过程中相互引导。包含VLM-Gym和RL训练的源代码已在https://github.com/chenllliang/G1上发布,以促进未来在推进VLMs作为有能力的交互式智能体方面的研究。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)在静态多模态任务中表现良好,但在交互式、视觉丰富的游戏环境中进行有效决策时面临挑战。现有方法难以将静态知识迁移到动态交互环境中,导致“知行”脱节,严重限制了VLMs作为自主智能体的应用。

核心思路:论文的核心思路是通过强化学习(RL)来训练VLMs,使其能够在与环境交互的过程中学习感知和推理能力。此外,为了解决游戏多样性带来的挑战,引入了感知增强的冷启动先验,帮助模型更好地理解游戏环境。这种结合RL和先验知识的方法旨在弥合VLMs的“知行”差距。

技术框架:整体框架包含两个主要部分:VLM-Gym环境和G1模型。VLM-Gym是一个包含多个视觉游戏的强化学习环境,提供统一的接口和可调整的难度。G1模型首先通过感知增强的冷启动先验进行初始化,然后使用强化学习进行微调。RL训练过程使用G0模型作为初始策略,通过自我进化来提升性能。

关键创新:论文的关键创新在于结合了强化学习和感知增强的冷启动先验,以提升VLMs在交互式环境中的决策能力。VLM-Gym环境的构建也为研究人员提供了一个统一的平台,用于训练和评估VLMs在游戏环境中的表现。此外,论文还发现感知和推理能力在RL训练过程中相互引导,这是一个有趣的发现。

关键设计:VLM-Gym环境包含多个具有不同视觉特征和游戏规则的游戏。感知增强的冷启动先验可能涉及使用预训练的视觉模型来提取游戏画面的特征,并将其作为VLMs的输入。RL训练过程可能使用策略梯度方法,例如PPO或A2C,来优化VLMs的策略。具体的损失函数和网络结构细节在论文中可能有所描述,但根据摘要无法得知具体参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

G1模型在VLM-Gym环境中的所有游戏中均超越了其教师模型G0,并且优于领先的专有模型,如Claude-3.7-Sonnet-Thinking。这表明G1模型在感知和推理能力方面取得了显著提升,能够更好地适应多样化的游戏环境。具体的性能提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于开发更智能的自主智能体,例如游戏AI、机器人导航和人机交互系统。通过提升VLMs在交互式环境中的决策能力,可以实现更自然、更高效的人机协作,并为自动化任务提供更强大的解决方案。未来,该技术有望应用于自动驾驶、智能家居等领域。

📄 摘要(原文)

Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.