MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning
作者: Chenglong Wang, Yifu Huo, Yang Gan, Qiaozhi He, Qi Meng, Bei Li, Yan Wang, Junfu Liu, Tianhua Zhou, Jingbo Zhu, Tong Xiao
分类: cs.CV
发布日期: 2026-03-26
备注: Accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出多阶段强化学习MSRL,用于扩展生成式多模态奖励模型的训练。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态奖励建模 强化学习 多阶段学习 知识蒸馏 视觉理解 视觉生成 跨模态学习 生成式模型
📋 核心要点
- 现有基于RLVR的多模态奖励模型训练依赖大量标注数据,成本高昂,限制了模型扩展。
- MSRL通过多阶段强化学习,先从文本数据学习奖励推理,再迁移到多模态任务,降低数据依赖。
- 实验表明,MSRL在视觉理解和生成任务上显著提升了模型性能,无需额外多模态标注。
📝 摘要(中文)
多模态奖励建模的最新进展主要得益于从判别式到生成式方法的转变。在此基础上,近期的研究进一步采用基于可验证奖励的强化学习(RLVR)来增强多模态奖励模型(MRM)。尽管它们取得了成功,但基于RLVR的训练通常依赖于带标签的多模态偏好数据,这些数据获取成本高且劳动密集,使得MRM训练难以扩展。为了克服这个限制,我们提出了一种多阶段强化学习(MSRL)方法,该方法可以在有限的多模态数据下实现MRM的可扩展RL。MSRL通过首先从大规模文本偏好数据中学习可泛化的奖励推理能力,然后通过基于字幕的和完全多模态的强化学习阶段,逐步将这种能力转移到多模态任务,从而取代了传统的基于RLVR的训练范式。此外,我们引入了一种跨模态知识蒸馏方法,以提高MSRL中的偏好泛化能力。大量的实验表明,MSRL有效地扩展了生成式MRM的基于RLVR的训练,并显著提高了它们在视觉理解和视觉生成任务中的性能(例如,在VL-RewardBench上从66.6%提高到75.9%,在GenAI-Bench上从70.2%提高到75.7%),而无需额外的多模态偏好注释。
🔬 方法详解
问题定义:论文旨在解决多模态奖励模型(MRM)训练中,对大量标注的多模态偏好数据依赖的问题。现有基于可验证奖励的强化学习(RLVR)方法虽然有效,但其对标注数据的需求限制了模型规模的扩展,阻碍了其在实际应用中的潜力。
核心思路:论文的核心思路是通过多阶段强化学习(MSRL),逐步将奖励推理能力从易于获取的文本数据迁移到多模态数据。首先利用大规模文本数据学习通用的奖励推理能力,然后通过中间阶段(基于字幕的强化学习)和最终阶段(完全多模态强化学习)逐步适应多模态环境,从而降低对多模态标注数据的需求。
技术框架:MSRL包含三个主要阶段:1) 文本奖励学习阶段:利用大规模文本偏好数据训练奖励模型,学习通用的奖励推理能力。2) 基于字幕的强化学习阶段:利用图像字幕数据,将奖励推理能力迁移到视觉信息,建立图像和文本之间的联系。3) 完全多模态强化学习阶段:利用真实的多模态数据,进一步优化奖励模型,使其能够处理复杂的多模态场景。此外,还引入了跨模态知识蒸馏,以提高偏好泛化能力。
关键创新:MSRL的关键创新在于其多阶段强化学习的训练范式,它有效地降低了对多模态标注数据的依赖,使得MRM的训练可以扩展到更大的规模。与传统的RLVR方法相比,MSRL通过逐步迁移学习,避免了直接在稀疏的多模态数据上进行训练,从而提高了训练效率和模型性能。
关键设计:论文中一个关键的设计是跨模态知识蒸馏,用于提高偏好泛化能力。具体的技术细节包括损失函数的设计,例如在文本奖励学习阶段可能使用对比学习损失或排序损失来学习偏好关系。在网络结构方面,可能采用Transformer等模型来处理文本和图像信息,并设计合适的跨模态融合机制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MSRL在VL-RewardBench上将性能从66.6%提升到75.9%,在GenAI-Bench上从70.2%提升到75.7%,显著优于现有方法。这些提升是在没有额外多模态偏好标注的情况下实现的,验证了MSRL在扩展生成式MRM训练方面的有效性。
🎯 应用场景
MSRL具有广泛的应用前景,包括图像描述生成、视觉对话、视频内容理解和推荐等领域。通过降低对标注数据的依赖,MSRL可以促进多模态人工智能技术在资源受限场景下的应用,并加速相关产品的开发和部署。该方法还有助于提升AI系统的公平性和鲁棒性,使其更好地服务于不同用户群体。
📄 摘要(原文)
Recent advances in multimodal reward modeling have been largely driven by a paradigm shift from discriminative to generative approaches. Building on this progress, recent studies have further employed reinforcement learning from verifiable rewards (RLVR) to enhance multimodal reward models (MRMs). Despite their success, RLVR-based training typically relies on labeled multimodal preference data, which are costly and labor-intensive to obtain, making it difficult to scale MRM training. To overcome this limitation, we propose a Multi-Stage Reinforcement Learning (MSRL) approach, which can achieve scalable RL for MRMs with limited multimodal data. MSRL replaces the conventional RLVR-based training paradigm by first learning a generalizable reward reasoning capability from large-scale textual preference data, and then progressively transferring this capability to multimodal tasks through caption-based and fully multimodal reinforcement-learning stages. Furthermore, we introduce a cross-modal knowledge distillation approach to improve preference generalization within MSRL. Extensive experiments demonstrate that MSRL effectively scales the RLVR-based training of generative MRMs and substantially improves their performance across both visual understanding and visual generation tasks (e.g., from 66.6% to 75.9% on VL-RewardBench and from 70.2% to 75.7% on GenAI-Bench), without requiring additional multimodal preference annotations. Our code is available at: https://github.com/wangclnlp/MSRL.