OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles

📄 arXiv: 2503.17352v3 📥 PDF

作者: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

分类: cs.CV, cs.CL

发布日期: 2025-03-21 (更新: 2025-11-11)

备注: 23 pages, 11 figures, 8 tables

🔗 代码/项目: GITHUB


💡 一句话要点

OpenVLThinker:通过迭代SFT-RL循环实现复杂视觉语言推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉推理 强化学习 监督微调 思维链 多模态学习 迭代训练

📋 核心要点

  1. 现有LVLM在视觉推理任务中,直接蒸馏文本推理模型或纯RL训练效果不佳,前者视觉 grounding 不准,后者搜索空间大。
  2. OpenVLThinker 采用迭代 SFT-RL 循环训练策略,SFT 缩小 RL 搜索空间,RL 提升推理能力,生成高质量 SFT 数据。
  3. OpenVLThinker-7B 在 MathVista、EMMA 和 HallusionBench 等六个基准测试中取得显著提升,验证了 SFT 和 RL 的协同作用。

📝 摘要(中文)

本文介绍了OpenVLThinker,这是首批开源的大型视觉语言模型(LVLM)之一,它展现了复杂的思维链推理能力,并在具有挑战性的视觉推理任务上取得了显著的性能提升。虽然基于文本的推理模型(例如Deepseek R1)在纯文本任务中表现出良好的效果,但通过监督微调(SFT)将其推理能力提炼到LVLM中,常常由于不精确的视觉基础而导致性能下降。相反,纯粹基于强化学习(RL)的方法面临着巨大的搜索空间,阻碍了较小模型(例如7B LVLM)中反思行为的出现。令人惊讶的是,在SFT和RL之间交替进行最终会在几次迭代后带来显著的性能改进。我们的分析表明,基础模型最初很少表现出推理行为,但SFT有效地揭示了这些潜在行为并缩小了RL搜索空间,从而加速了推理能力的发展。随后的每个RL阶段进一步完善了模型的推理技能,从而产生更高质量的SFT数据,以实现持续的自我改进。OpenVLThinker-7B在六个需要数学和一般推理的基准测试中持续提高性能,尤其是在MathVista上提高了3.8%,在EMMA上提高了2.4%,在HallusionBench上提高了1.6%。除了证明SFT和RL在复杂推理任务中的协同作用外,我们的发现还为在多模态环境中实现R1风格的推理提供了早期证据。代码、模型和数据可在https://github.com/yihedeng9/OpenVLThinker上找到。

🔬 方法详解

问题定义:论文旨在提升大型视觉语言模型(LVLM)在复杂视觉推理任务中的性能。现有方法,如直接将文本推理模型的知识蒸馏到LVLM中(通过SFT),往往由于视觉 grounding 不准确而导致性能下降。而纯粹依赖强化学习(RL)的方法,由于搜索空间巨大,难以在较小的模型(如7B参数模型)中有效训练出推理能力。

核心思路:论文的核心思路是结合监督微调(SFT)和强化学习(RL)的优势,通过迭代的SFT-RL循环来训练LVLM。SFT用于引导模型初步具备推理能力,并缩小RL的搜索空间,而RL则进一步优化模型的推理策略,并生成更高质量的数据用于后续的SFT训练。这种迭代的方式能够充分发挥SFT和RL的协同作用,从而提升LVLM的推理性能。

技术框架:OpenVLThinker的训练框架主要包含两个阶段:SFT阶段和RL阶段。在SFT阶段,使用高质量的视觉推理数据对LVLM进行微调,使其初步具备推理能力。在RL阶段,使用强化学习算法(具体算法未知)对模型进行优化,使其能够更好地进行视觉推理。这两个阶段交替进行,形成一个迭代的训练循环。每次RL阶段产生的数据会被用于下一轮的SFT阶段,从而实现模型的持续改进。

关键创新:论文的关键创新在于提出了迭代的SFT-RL循环训练策略。这种策略能够有效地结合SFT和RL的优势,克服了传统方法中存在的缺陷。SFT能够引导模型快速学习推理能力,并缩小RL的搜索空间,而RL则能够进一步优化模型的推理策略,并生成更高质量的训练数据。这种迭代的方式能够实现模型的持续改进,从而提升LVLM在复杂视觉推理任务中的性能。

关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。强化学习算法的具体选择未知,SFT所使用的数据集的构建方式也未知。这些细节需要在阅读论文原文或代码后才能了解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenVLThinker-7B 在六个需要数学和一般推理的基准测试中持续提高性能,尤其是在 MathVista 上提高了 3.8%,在 EMMA 上提高了 2.4%,在 HallusionBench 上提高了 1.6%。这些结果表明,迭代 SFT-RL 循环训练策略能够有效地提升 LVLM 在复杂视觉推理任务中的性能。

🎯 应用场景

OpenVLThinker 有潜力应用于需要复杂视觉语言推理的各种场景,例如智能客服、自动驾驶、医疗诊断等。该模型可以帮助机器更好地理解图像和文本信息,并进行准确的推理和决策,从而提高工作效率和准确性。未来,该研究可以推动多模态人工智能的发展,实现更智能、更人性化的应用。

📄 摘要(原文)

We introduce OpenVLThinker, one of the first open-source large vision-language models (LVLMs) to exhibit sophisticated chain-of-thought reasoning, achieving notable performance gains on challenging visual reasoning tasks. While text-based reasoning models (e.g., Deepseek R1) show promising results in text-only tasks, distilling their reasoning into LVLMs via supervised fine-tuning (SFT) often results in performance degradation due to imprecise visual grounding. Conversely, purely reinforcement learning (RL)-based methods face a large search space, hindering the emergence of reflective behaviors in smaller models (e.g., 7B LVLMs). Surprisingly, alternating between SFT and RL ultimately results in significant performance improvements after a few iterations. Our analysis reveals that the base model rarely exhibits reasoning behaviors initially, but SFT effectively surfaces these latent actions and narrows the RL search space, accelerating the development of reasoning capabilities. Each subsequent RL stage further refines the model's reasoning skills, producing higher-quality SFT data for continued self-improvement. OpenVLThinker-7B consistently advances performance across six benchmarks demanding mathematical and general reasoning, notably improving MathVista by 3.8%, EMMA by 2.4%, and HallusionBench by 1.6%. Beyond demonstrating the synergy between SFT and RL for complex reasoning tasks, our findings provide early evidence towards achieving R1-style reasoning in multimodal contexts. The code, model and data are held at https://github.com/yihedeng9/OpenVLThinker.