R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
作者: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao
分类: cs.AI, cs.CL, cs.CV, cs.LG
发布日期: 2025-03-17 (更新: 2025-08-04)
备注: ICCV 2025 Camera Ready
💡 一句话要点
提出StepGRPO框架,提升多模态大语言模型在复杂推理任务中的能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 强化学习 推理能力 在线学习 奖励函数 策略优化 视觉推理
📋 核心要点
- 现有方法依赖高质量的思维链数据进行监督微调,但模型可能仅仅模仿成功路径,缺乏对错误路径的理解。
- StepGRPO通过在线强化学习,利用逐步奖励机制,使MLLMs能够主动探索和学习正确的推理过程,提升推理能力。
- 提出的R1-VL模型在多个基准测试中表现出色,验证了StepGRPO框架的有效性,显著提升了模型的推理性能。
📝 摘要(中文)
本文旨在提升多模态大语言模型(MLLMs)的推理能力,超越被动模仿成功的推理路径。为此,我们设计了Step-wise Group Relative Policy Optimization (StepGRPO),这是一个新的在线强化学习框架,它通过简单、有效和密集的逐步奖励,使MLLMs能够自我提升推理能力。具体而言,StepGRPO引入了两个新的基于规则的推理奖励:Step-wise Reasoning Accuracy Reward (StepRAR) 和 Step-wise Reasoning Validity Reward (StepRVR)。StepRAR通过软关键步骤匹配技术奖励包含必要中间推理步骤的推理路径,而StepRVR通过推理完整性和逻辑评估策略奖励遵循结构良好且逻辑一致的推理过程的推理路径。借助提出的StepGRPO,我们推出了R1-VL,一系列在逐步推理方面具有出色能力的MLLM。在8个基准上的大量实验证明了我们方法的优越性。
🔬 方法详解
问题定义:现有MLLMs的推理能力提升主要依赖于在高质量的思维链数据上进行监督微调。这种方法的局限性在于,模型倾向于模仿成功的推理路径,而忽略了对错误推理路径的学习和理解。因此,模型难以泛化到新的、未见过的问题上,鲁棒性较差。
核心思路:本文的核心思路是通过强化学习,让MLLMs在推理过程中进行自我探索和学习。通过设计合适的奖励函数,引导模型学习正确的推理步骤和逻辑,从而提升其推理能力。与传统的监督学习方法不同,强化学习能够让模型从错误中学习,并更好地理解推理过程中的因果关系。
技术框架:StepGRPO框架主要包含以下几个部分:1) MLLM作为Agent,负责生成推理路径;2) 环境,即推理任务;3) 奖励函数,包括StepRAR和StepRVR,用于评估推理路径的质量;4) 策略优化算法,用于更新MLLM的策略,使其能够生成更好的推理路径。整个流程是一个在线学习的过程,MLLM不断与环境交互,并根据奖励函数的反馈进行自我优化。
关键创新:StepGRPO的关键创新在于引入了Step-wise Reasoning Accuracy Reward (StepRAR) 和 Step-wise Reasoning Validity Reward (StepRVR) 这两个新的奖励函数。StepRAR通过软关键步骤匹配技术,奖励包含必要中间推理步骤的推理路径,鼓励模型生成完整的推理过程。StepRVR通过推理完整性和逻辑评估策略,奖励遵循结构良好且逻辑一致的推理过程的推理路径,保证推理的正确性。这两个奖励函数共同作用,引导模型学习高质量的推理路径。
关键设计:StepRAR的关键设计在于软关键步骤匹配技术,它允许模型在推理过程中存在一定的偏差,只要包含必要的关键步骤即可获得奖励。StepRVR的关键设计在于推理完整性和逻辑评估策略,它通过规则化的方式评估推理路径的完整性和逻辑性,避免模型生成不合理或错误的推理过程。策略优化算法采用Policy Optimization方法,具体实现细节未知,但目标是最大化累积奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,R1-VL模型在8个基准测试中均取得了显著的性能提升,证明了StepGRPO框架的有效性。具体的性能数据和对比基线在论文中给出,但此处未知。总体而言,该方法能够显著提升MLLMs的推理能力,使其在复杂推理任务中表现更加出色。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如智能问答、视觉推理、机器人导航等。通过提升MLLMs的推理能力,可以使其更好地理解和解决现实世界中的问题,从而提高自动化水平和智能化程度。未来,该技术有望在医疗诊断、金融分析等领域发挥重要作用。
📄 摘要(原文)
Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wise rewarding. Specifically, StepGRPO introduces two novel rule-based reasoning rewards: Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary intermediate reasoning steps via a soft key-step matching technique, while StepRAR rewards reasoning paths that follow a well-structured and logically consistent reasoning process through a reasoning completeness and logic evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.