R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

📄 arXiv: 2505.02835v2 📥 PDF

作者: Yi-Fan Zhang, Xingyu Lu, Xiao Hu, Chaoyou Fu, Bin Wen, Tianke Zhang, Changyi Liu, Kaiyu Jiang, Kaibing Chen, Kaiyu Tang, Haojie Ding, Jiankang Chen, Fan Yang, Zhang Zhang, Tingting Gao, Liang Wang

分类: cs.CV, cs.CL

发布日期: 2025-05-05 (更新: 2025-05-09)

备注: Home page: https://github.com/yfzhang114/r1_reward


💡 一句话要点

提出StableReinforce算法,提升多模态奖励模型长期推理能力与训练稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态奖励模型 强化学习 奖励建模 长期推理 StableReinforce算法

📋 核心要点

  1. 现有MRM研究侧重模型结构和数据,忽略了长期推理能力对奖励建模的重要性及其激活方法。
  2. 将奖励建模重构为基于规则的强化学习任务,并提出StableReinforce算法以解决训练不稳定性问题。
  3. R1-Reward模型在VL Reward-Bench和Multimodal Reward Bench上分别取得8.4%和14.3%的性能提升。

📝 摘要(中文)

多模态奖励模型(MRMs)在提升多模态大型语言模型(MLLMs)的性能方面起着至关重要的作用。虽然最近的进展主要集中在改进MRMs的模型结构和训练数据上,但对于奖励建模的长期推理能力的有效性以及如何在MRMs中激活这些能力的研究还很有限。本文探讨了如何使用强化学习(RL)来改进奖励建模。具体来说,我们将奖励建模问题重新定义为一个基于规则的RL任务。然而,我们观察到,直接应用现有的RL算法(如Reinforce++)进行奖励建模,由于这些算法的固有局限性,常常导致训练不稳定甚至崩溃。为了解决这个问题,我们提出了StableReinforce算法,该算法改进了现有RL方法的训练损失、优势估计策略和奖励设计。这些改进带来了更稳定的训练动态和卓越的性能。为了促进MRM训练,我们从不同的数据集中收集了20万个偏好数据。我们的奖励模型R1-Reward,使用StableReinforce算法在此数据集上进行训练,显著提高了多模态奖励建模基准的性能。与之前的SOTA模型相比,R1-Reward在VL Reward-Bench上实现了8.4%的提升,在Multimodal Reward Bench上实现了14.3%的提升。此外,随着推理计算量的增加,R1-Reward的性能得到进一步提升,突出了RL算法在优化MRMs方面的潜力。

🔬 方法详解

问题定义:论文旨在解决多模态奖励模型(MRMs)在训练过程中由于缺乏长期推理能力和现有强化学习算法的局限性而导致的训练不稳定甚至崩溃的问题。现有方法主要集中在改进模型结构和训练数据,忽略了如何有效利用强化学习来提升MRMs的奖励建模能力,尤其是在长期推理方面。

核心思路:论文的核心思路是将奖励建模问题重新定义为一个基于规则的强化学习任务,并设计一种新的强化学习算法StableReinforce,通过改进训练损失、优势估计策略和奖励设计,来稳定训练过程并提升MRMs的性能。这种方法旨在激活MRMs的长期推理能力,使其能够更好地评估多模态输入的质量。

技术框架:整体框架包括以下几个主要步骤:1) 将奖励建模问题形式化为强化学习任务;2) 收集包含20万条偏好数据的多模态数据集;3) 使用StableReinforce算法训练奖励模型R1-Reward;4) 在VL Reward-Bench和Multimodal Reward Bench等基准测试上评估R1-Reward的性能。StableReinforce算法是该框架的核心模块,负责稳定训练过程并优化奖励模型。

关键创新:论文的关键创新在于StableReinforce算法,它通过以下三个方面的改进来解决传统强化学习算法在奖励建模中遇到的问题:1) 改进训练损失,使其更稳定;2) 优化优势估计策略,更准确地评估行为的价值;3) 重新设计奖励函数,鼓励长期推理。与现有方法相比,StableReinforce算法能够更有效地利用强化学习来训练MRMs,并提升其长期推理能力。

关键设计:StableReinforce算法的关键设计包括:1) 具体的训练损失函数形式,可能包含正则化项或裁剪项以防止梯度爆炸;2) 优势估计策略的细节,例如使用GAE(Generalized Advantage Estimation)或其他更稳定的估计方法;3) 奖励函数的设计,可能包含稀疏奖励或形状奖励,以引导模型学习。此外,数据集的构建也至关重要,需要包含多样化的多模态数据和高质量的偏好标注。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

R1-Reward模型在两个多模态奖励建模基准测试中取得了显著的性能提升。在VL Reward-Bench上,R1-Reward的性能比之前的SOTA模型提高了8.4%。在Multimodal Reward Bench上,R1-Reward的性能提高了14.3%。此外,实验结果表明,随着推理计算量的增加,R1-Reward的性能可以进一步提升,验证了强化学习算法在优化多模态奖励模型方面的潜力。

🎯 应用场景

该研究成果可应用于各种需要多模态信息融合和奖励建模的场景,例如:机器人导航、自动驾驶、智能对话系统、图像/视频生成等。通过提升多模态奖励模型的性能,可以更有效地指导智能体学习,从而实现更智能、更高效的人工智能系统。未来,该技术有望在医疗诊断、金融分析等领域发挥重要作用。

📄 摘要(原文)

Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward's performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.