VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

📄 arXiv: 2504.07615v2 📥 PDF

作者: Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

分类: cs.CV, cs.CL

发布日期: 2025-04-10 (更新: 2025-04-14)

备注: 11 pages, fix some minor typos in the previous version

🔗 代码/项目: GITHUB


💡 一句话要点

VLM-R1:基于规则奖励的稳定且泛化性强的视觉语言大模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 强化学习 规则奖励 视觉推理 泛化能力

📋 核心要点

  1. 现有视觉语言模型在复杂推理任务中面临挑战,缺乏有效的训练方法来提升其性能和泛化能力。
  2. VLM-R1借鉴R1的规则奖励思想,针对视觉任务设计强化学习框架,利用明确标注提升模型视觉推理能力。
  3. 实验表明,VLM-R1在视觉理解任务上表现优异,泛化能力超越监督微调,并揭示了RL训练中的有趣现象。

📝 摘要(中文)

本文提出了VLM-R1,一个专门用于利用强化学习(RL)来提升视觉语言模型(VLM)在通用视觉语言任务上性能的框架。该框架受到DeepSeek R1的启发,后者通过基于规则的奖励机制显著提升了大型语言模型(LLM)的推理能力。VLM-R1利用视觉领域中大量视觉理解任务天然具备明确标注的特性,使其与基于规则的奖励机制相兼容。实验结果表明,基于RL的模型在视觉理解任务上表现出竞争力的性能,并且在泛化能力上超越了监督微调(SFT)。此外,本文还进行了全面的消融研究,揭示了一系列值得关注的见解,包括目标检测中的奖励黑客现象、“OD aha moment”的出现、训练数据质量的影响以及RL在不同模型规模上的扩展行为。希望这些发现和开源贡献能够支持视觉语言RL社区的持续进步。

🔬 方法详解

问题定义:现有视觉语言模型在视觉推理任务中表现不足,尤其是在泛化能力方面。监督微调(SFT)虽然常用,但可能难以充分挖掘模型的潜力。强化学习(RL)在语言模型中已被证明有效,但如何将其有效应用于视觉语言模型仍是一个挑战。现有方法可能难以设计合适的奖励函数,导致训练不稳定或奖励利用不当。

核心思路:VLM-R1的核心思路是将R1中基于规则的奖励机制引入视觉语言领域。许多视觉任务,如目标检测、图像描述等,都具有明确的ground-truth标注,这使得我们可以设计精确且稳定的奖励函数。通过强化学习,模型可以学习如何更好地利用视觉信息进行推理,从而提升性能和泛化能力。

技术框架:VLM-R1的整体框架包括以下几个主要模块:1) VLM骨干网络:使用预训练的视觉语言模型作为基础。2) 规则奖励模块:根据任务的ground-truth标注,设计基于规则的奖励函数。3) 强化学习训练模块:使用策略梯度方法(如PPO)训练VLM,使其最大化累积奖励。训练流程通常包括:模型生成输出、计算奖励、更新模型参数。

关键创新:VLM-R1的关键创新在于将基于规则的奖励机制成功应用于视觉语言模型,并验证了其有效性。与传统的基于人工设计的奖励函数相比,基于规则的奖励函数更加精确和稳定,能够更好地引导模型学习。此外,该研究还深入分析了RL在视觉语言模型中的行为,揭示了一些有趣的现象,如奖励黑客和“OD aha moment”。

关键设计:在奖励函数设计方面,VLM-R1针对不同的视觉任务设计了不同的规则。例如,在目标检测任务中,奖励可以基于预测框与ground-truth框的IoU(交并比)来计算。在强化学习训练方面,VLM-R1采用了PPO算法,并对超参数进行了精细调整,以保证训练的稳定性和收敛性。此外,数据质量对RL训练至关重要,VLM-R1也关注了数据清洗和增强策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VLM-R1在多个视觉理解任务上取得了显著的性能提升。例如,在目标检测任务中,VLM-R1的性能超越了监督微调方法,并且在泛化能力方面表现更佳。消融研究揭示了奖励黑客现象和“OD aha moment”的出现,为理解RL在视觉语言模型中的行为提供了新的视角。此外,研究还发现,训练数据质量对RL训练至关重要,高质量的数据能够显著提升模型的性能。

🎯 应用场景

VLM-R1的研究成果可广泛应用于各种视觉语言任务,例如图像描述生成、视觉问答、目标检测和图像编辑等。该方法能够提升视觉语言模型的性能和泛化能力,使其在实际应用中更加可靠和有效。此外,VLM-R1的研究也为视觉语言强化学习领域提供了新的思路和方法,促进了相关技术的发展。

📄 摘要(原文)

Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs' performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the "OD aha moment", the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1