Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-03-09 (更新: 2025-03-11)
🔗 代码/项目: GITHUB
💡 一句话要点
Vision-R1:通过强化学习提升多模态大语言模型的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 强化学习 推理能力 模态桥接 数据过滤 渐进式思考抑制训练 群体相对策略优化
📋 核心要点
- 现有MLLM缺乏高质量多模态推理数据,难以有效激活复杂的推理能力,如提问和反思。
- 提出Vision-R1,利用模态桥接和数据过滤构建高质量CoT数据集,并采用PTST和GRPO策略优化推理过程。
- 实验表明,Vision-R1在多模态数学推理基准测试中取得了显著提升,性能接近领先模型OpenAI O1。
📝 摘要(中文)
本文提出了一种名为Vision-R1的推理多模态大语言模型,旨在提升其多模态推理能力。受到DeepSeek-R1-Zero的启发,该研究探索了如何利用强化学习来增强MLLM的推理能力。由于缺乏高质量的多模态推理数据,直接使用强化学习难以激活MLLM中复杂的推理能力,如提问和反思。为了解决这个问题,研究人员首先利用现有的MLLM和DeepSeek-R1,通过模态桥接和数据过滤构建了一个高质量的、无需人工标注的20万多模态CoT数据集Vision-R1-cold,作为Vision-R1的冷启动初始化数据。为了缓解冷启动后过度思考带来的优化挑战,研究人员提出了渐进式思考抑制训练(PTST)策略,并采用带有硬格式化结果奖励函数的群体相对策略优化(GRPO),逐步提高模型在1万多模态数学数据集上学习正确和复杂推理过程的能力。综合实验表明,该模型在各种多模态数学推理基准测试中平均提高了约6%。Vision-R1-7B在广泛使用的MathVista基准测试中达到了73.5%的准确率,仅比领先的推理模型OpenAI O1低0.4%。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在推理能力上的不足,尤其是在缺乏高质量多模态推理数据的情况下,MLLM难以进行复杂的推理,例如提问和反思。现有方法依赖大量人工标注数据,成本高昂且难以覆盖所有场景。
核心思路:论文的核心思路是利用现有的MLLM和DeepSeek-R1,通过模态桥接和数据过滤自动构建高质量的多模态CoT数据集,作为冷启动数据。然后,通过渐进式思考抑制训练(PTST)和群体相对策略优化(GRPO)来引导模型学习正确的推理过程,避免过度思考。
技术框架:整体框架包含以下几个主要阶段: 1. 数据构建:利用现有模型自动生成多模态CoT数据,并通过模态桥接和数据过滤保证数据质量。 2. 冷启动:使用构建的数据集对Vision-R1进行初始化。 3. 强化学习训练:采用PTST和GRPO策略,在多模态数学数据集上进行强化学习训练,优化模型的推理能力。
关键创新:论文的关键创新在于: 1. 自动数据构建:提出了一种无需人工标注即可构建高质量多模态CoT数据集的方法,降低了数据获取成本。 2. 渐进式思考抑制训练(PTST):缓解了冷启动后过度思考带来的优化挑战,使模型能够更有效地学习推理过程。 3. 群体相对策略优化(GRPO):通过群体比较,更有效地引导模型学习正确的推理策略。
关键设计: 1. 模态桥接:利用DeepSeek-R1的强大语言能力,将视觉信息转化为文本描述,实现模态之间的信息传递。 2. 数据过滤:通过设定阈值过滤掉低质量的数据,保证数据集的质量。 3. PTST策略:逐步降低模型的思考深度,避免过度思考。 4. GRPO策略:采用硬格式化结果作为奖励函数,引导模型生成正确的推理结果。
🖼️ 关键图片
📊 实验亮点
Vision-R1在多模态数学推理基准测试中取得了显著提升,平均提高了约6%。在广泛使用的MathVista基准测试中,Vision-R1-7B达到了73.5%的准确率,仅比领先的推理模型OpenAI O1低0.4%。这些结果表明,该方法能够有效提升MLLM的推理能力,并使其在复杂任务中具有竞争力。
🎯 应用场景
该研究成果可应用于需要多模态信息融合和复杂推理的场景,例如智能教育、智能客服、医疗诊断等。通过提升MLLM的推理能力,可以使其更好地理解和解决现实世界中的问题,从而提高工作效率和决策质量。未来,该方法有望扩展到更多领域,例如自动驾驶、机器人导航等。
📄 摘要(原文)
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model's ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of $\sim$6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .