SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
作者: Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie
分类: cs.CL
发布日期: 2025-04-10
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
揭示SFT诱导伪推理路径对LVLM强化学习的负面影响,提出VLAA-Thinking数据集和VLAA-Thinker模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 强化学习 监督微调 推理能力 多模态数据集 奖励函数设计 群体相对策略优化
📋 核心要点
- 现有LVLM训练范式依赖SFT后RL,但SFT可能诱导“伪推理路径”,阻碍RL学习。
- 提出VLAA-Thinking数据集,包含高质量推理轨迹,用于SFT和更具挑战性的RL训练。
- 实验表明,SFT会限制模型推理能力,而结合感知和认知信号的RL方法能提升推理性能,VLAA-Thinker模型取得SOTA。
📝 摘要(中文)
本文重新审视了大型视觉语言模型(LVLM)训练中常用的监督微调(SFT)后强化学习(RL)范式,并揭示了一个关键发现:SFT会通过诱导模仿专家模型的“伪推理路径”来显著削弱后续的RL。这些路径可能类似于RL模型的原生推理路径,但通常涉及冗长、犹豫、信息量较少的步骤以及不正确的推理。为了系统地研究这种影响,我们引入了VLAA-Thinking,这是一个新的多模态数据集,旨在支持LVLM中的推理。VLAA-Thinking通过一个包含字幕、推理提炼、答案重写和验证的六步流程构建,包含用于SFT的高质量、逐步视觉推理轨迹,以及来自相同数据源的更具挑战性的RL分割。使用该数据集,我们进行了广泛的实验,比较了SFT、RL及其组合。结果表明,虽然SFT有助于模型学习推理格式,但它通常会将对齐的模型锁定到模仿性的、僵化的推理模式中,从而阻碍进一步的学习。相比之下,基于群体相对策略优化(GRPO),并结合了感知和认知信号的新型混合奖励模块,我们的RL方法培养了更真实、适应性更强的推理行为。值得注意的是,我们基于Qwen2.5VL 3B的模型VLAA-Thinker在Open LMM Reasoning Leaderboard上实现了4B规模LVLM中的最佳性能,超过了之前的最先进水平1.8%。我们希望我们的发现为开发具有推理能力的LVLM提供有价值的见解,并为该领域的未来研究提供信息。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLM)训练方法通常采用监督微调(SFT)后进行强化学习(RL)的范式。然而,SFT可能导致模型学习到模仿专家模型的“伪推理路径”,这些路径虽然看起来像推理,但实际上效率低下且不准确,从而阻碍了后续RL阶段的学习。现有方法缺乏对SFT和RL之间相互作用的深入理解,以及缺乏专门用于研究推理能力的数据集。
核心思路:本文的核心思路是揭示SFT对RL的负面影响,并提出一种更有效的RL训练方法来克服SFT带来的限制。通过构建高质量的推理数据集VLAA-Thinking,并设计结合感知和认知信号的混合奖励模块,引导模型学习更真实、适应性更强的推理行为。这种方法旨在使模型摆脱对SFT学习到的“伪推理路径”的依赖,从而提升其泛化能力和推理准确性。
技术框架:整体框架包括数据构建和模型训练两个主要部分。数据构建方面,通过六步流程(字幕、推理提炼、答案重写和验证)构建VLAA-Thinking数据集,包含SFT和RL两个分割。模型训练方面,采用基于群体相对策略优化(GRPO)的RL方法,并引入混合奖励模块,该模块同时考虑感知和认知信号,以更全面地评估模型的推理能力。
关键创新:本文的关键创新在于:1)揭示了SFT对RL的负面影响,即SFT可能诱导“伪推理路径”;2)构建了专门用于研究LVLM推理能力的VLAA-Thinking数据集;3)提出了结合感知和认知信号的混合奖励模块,用于更有效地训练LVLM的推理能力。与现有方法相比,本文更注重SFT和RL之间的相互作用,并提供了一种更有效的RL训练策略。
关键设计:VLAA-Thinking数据集的关键设计在于其六步构建流程,确保了数据的质量和多样性。混合奖励模块的关键设计在于同时考虑感知和认知信号,例如,感知信号可以衡量模型对图像内容的理解程度,而认知信号可以衡量模型推理步骤的合理性和准确性。具体参数设置和损失函数细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
VLAA-Thinker模型基于Qwen2.5VL 3B,在Open LMM Reasoning Leaderboard上取得了显著成果,在4B规模LVLM中排名第一,超越了之前的SOTA模型1.8%。这表明本文提出的RL训练方法和VLAA-Thinking数据集能够有效提升LVLM的推理能力。
🎯 应用场景
该研究成果可应用于需要复杂视觉推理能力的场景,例如智能问答、视觉导航、机器人任务规划等。通过提升LVLM的推理能力,可以提高这些应用场景的智能化水平和用户体验。未来,该研究可以推动LVLM在医疗诊断、教育辅助等领域的应用。
📄 摘要(原文)
This work revisits the dominant supervised fine-tuning (SFT) then reinforcement learning (RL) paradigm for training Large Vision-Language Models (LVLMs), and reveals a key finding: SFT can significantly undermine subsequent RL by inducing ``pseudo reasoning paths'' imitated from expert models. While these paths may resemble the native reasoning paths of RL models, they often involve prolonged, hesitant, less informative steps, and incorrect reasoning. To systematically study this effect, we introduce VLAA-Thinking, a new multimodal dataset designed to support reasoning in LVLMs. Constructed via a six-step pipeline involving captioning, reasoning distillation, answer rewrite and verification, VLAA-Thinking comprises high-quality, step-by-step visual reasoning traces for SFT, along with a more challenging RL split from the same data source. Using this dataset, we conduct extensive experiments comparing SFT, RL and their combinations. Results show that while SFT helps models learn reasoning formats, it often locks aligned models into imitative, rigid reasoning modes that impede further learning. In contrast, building on the Group Relative Policy Optimization (GRPO) with a novel mixed reward module integrating both perception and cognition signals, our RL approach fosters more genuine, adaptive reasoning behavior. Notably, our model VLAA-Thinker, based on Qwen2.5VL 3B, achieves top-1 performance on Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) among 4B scale LVLMs, surpassing the previous state-of-the-art by 1.8%. We hope our findings provide valuable insights in developing reasoning-capable LVLMs and can inform future research in this area.