Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

📄 arXiv: 2505.22334v2 📥 PDF

作者: Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2025-05-28 (更新: 2025-07-23)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于冷启动的强化学习方法,提升多模态大语言模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 冷启动 大语言模型 监督微调

📋 核心要点

  1. 现有方法难以有效利用多模态大语言模型中已有的推理能力,且强化学习训练成本高昂。
  2. 论文提出一种两阶段方法,先用监督微调进行冷启动,再用强化学习优化,提升推理性能。
  3. 实验表明,该方法在多个基准测试中优于SFT和RL-only方法,并在3B和7B规模上取得SOTA性能。

📝 摘要(中文)

本文研究了如何通过强化学习(RL)提升多模态大语言模型(MLLM)的推理能力。研究发现,在RL训练之前,MLLM中已经存在“顿悟时刻”模式,但这些模式不一定与推理性能的提升相关。基于此,本文提出了一种两阶段方法:首先,通过监督微调(SFT)进行冷启动,构建结构化的思维链推理模式;然后,通过GRPO(未知)进行强化学习,进一步优化这些能力。实验结果表明,该方法在多个具有挑战性的多模态推理基准测试中,始终优于仅使用SFT或仅使用RL的方法。最终模型在3B和7B规模上均达到了最先进的性能,其中7B模型在MathVista和We-Math数据集上分别取得了66.3%→73.4%和62.9%→70.4%的显著提升,3B模型也达到了与多个7B模型相媲美的性能。这项工作为构建先进的多模态推理模型提供了实践指导。

🔬 方法详解

问题定义:论文旨在提升多模态大语言模型在复杂推理任务中的表现。现有方法,如直接进行强化学习,可能无法充分利用模型本身已具备的推理能力,导致训练效率低下或效果不佳。此外,从头开始训练多模态大语言模型成本高昂,需要大量的计算资源和数据。

核心思路:论文的核心思路是利用监督微调(SFT)作为冷启动,预先训练模型形成结构化的思维链推理模式,然后再通过强化学习进一步优化这些模式。这种方法可以有效地利用模型已有的能力,并引导模型朝着更有效的推理方向发展,从而提高训练效率和最终性能。

技术框架:整体框架包含两个主要阶段:1) 监督微调(SFT)阶段:使用带有结构化思维链标注的数据集对模型进行微调,使模型学习到清晰的推理步骤。2) 强化学习(RL)阶段:使用GRPO算法(具体细节未知)对SFT后的模型进行进一步优化,以提高模型在复杂推理任务中的表现。这两个阶段协同工作,共同提升模型的多模态推理能力。

关键创新:论文的关键创新在于提出了“冷启动”的概念,即在强化学习之前,先通过监督微调使模型具备一定的推理能力。这种方法避免了从零开始探索推理空间,提高了强化学习的效率和效果。此外,论文还发现,MLLM在RL训练前就存在“顿悟时刻”模式,但这些模式不一定与推理性能相关,这为后续的冷启动策略提供了理论依据。

关键设计:论文的关键设计包括:1) 结构化思维链数据:用于SFT阶段的数据集需要包含清晰的推理步骤,以便模型学习到正确的推理模式。2) GRPO算法:具体算法细节未知,但其目标是根据奖励信号优化模型的推理策略。3) 合适的奖励函数:设计能够有效反映模型推理质量的奖励函数,引导模型朝着正确的方向发展。具体的参数设置、损失函数和网络结构等细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在MathVista和We-Math等具有挑战性的多模态推理基准测试中取得了显著的性能提升。具体而言,7B模型在MathVista上从66.3%提升到73.4%,在We-Math上从62.9%提升到70.4%。此外,3B模型也达到了与多个7B模型相媲美的性能,证明了该方法的有效性和可扩展性。

🎯 应用场景

该研究成果可应用于智能问答、视觉推理、机器人导航等领域。通过提升多模态大语言模型的推理能力,可以使其更好地理解和处理复杂的现实世界问题,例如,帮助机器人理解场景并做出决策,或为用户提供更准确、更全面的信息服务。未来,该技术有望在教育、医疗、金融等领域发挥重要作用。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have demonstrated impressive chain-of-thought reasoning capabilities, with reinforcement learning (RL) playing a crucial role in this progress. While "aha moment" patterns--where models exhibit self-correction through reflection--are often attributed to emergent properties from RL, we first demonstrate that these patterns exist in multimodal LLMs (MLLMs) prior to RL training but may not necessarily correlate with improved reasoning performance. Building on these insights, we present a comprehensive study on enhancing multimodal reasoning through a two-stage approach: (1) supervised fine-tuning (SFT) as a cold start with structured chain-of-thought reasoning patterns, followed by (2) reinforcement learning via GRPO to further refine these capabilities. Our extensive experiments show that this combined approach consistently outperforms both SFT-only and RL-only methods across challenging multimodal reasoning benchmarks. The resulting models achieve state-of-the-art performance among open-source MLLMs at both 3B and 7B scales, with our 7B model showing substantial improvements over base models (e.g., 66.3 %$\rightarrow$73.4 % on MathVista, 62.9 %$\rightarrow$70.4 % on We-Math) and our 3B model achieving performance competitive with several 7B models. Overall, this work provides practical guidance for building advanced multimodal reasoning models. Our code is available at https://github.com/waltonfuture/RL-with-Cold-Start.