You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

📄 arXiv: 2604.10966v1 📥 PDF

作者: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna

分类: cs.CV, cs.AI

发布日期: 2026-04-13

备注: 9 pages, 4 figures


💡 一句话要点

提出单次前向多响应奖励模型,加速多模态偏好学习并提升开放生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态奖励模型 偏好学习 单次前向 视觉语言模型 强化学习 开放式生成 视频问答

📋 核心要点

  1. 现有判别式奖励模型需多次前向传播,效率低下,无法直接进行多响应比较推理。
  2. 提出多响应奖励模型,通过连接多个响应并使用交叉熵损失,实现单次前向N路偏好学习。
  3. 构建MR$^2$Bench-Image和MR$^2$Bench-Video两个新基准,并在多个基准上取得SOTA结果,提升开放生成质量。

📝 摘要(中文)

本文提出了一种判别式多模态奖励模型,该模型能够在单次前向传播中对所有候选响应进行评分。传统的判别式奖励模型独立评估每个响应,需要多次前向传播,每个潜在响应一次。本文的方法将多个响应与分隔符token连接起来,并对它们的标量分数应用交叉熵,从而实现直接的比较推理和高效的N路偏好学习。多响应设计还实现了高达N倍的wall-clock加速和FLOPs减少。为了支持超越现有成对基准的N路奖励评估,本文构建了两个新的基准:(1)MR$^2$Bench-Image包含来自8个不同模型的人工标注排名;(2)MR$^2$Bench-Video是一个大规模的基于视频的奖励基准,源自对视频问答的19个模型的94K众包成对人工判断,并通过偏好图集成进行去噪。两个基准都提供了从完整排名中抽样的4响应评估变体。基于具有LoRA微调和轻量级MLP值头的4B视觉语言backbone,本文的模型在六个多模态奖励基准上实现了最先进的结果,包括MR$^2$Bench-Image、MR$^2$Bench-Video和四个其他现有基准。本文的模型优于现有的更大的生成式和判别式奖励模型。本文进一步证明,当本文的奖励模型与GRPO一起用于强化学习时,可以产生改进的策略模型,该模型在标准多模态基准上保持性能,同时显着提高开放式生成质量,在训练稳定性和开放式生成质量方面均大大优于单响应判别式奖励模型(RM)基线。

🔬 方法详解

问题定义:现有判别式奖励模型在评估多个候选响应时,需要对每个响应进行独立的前向传播,计算成本高昂,无法有效利用多个响应之间的关联信息进行比较推理。这限制了模型在需要从多个选项中选择最佳响应的场景下的应用,例如开放式生成任务。

核心思路:本文的核心思路是将多个候选响应连接成一个输入序列,通过单次前向传播同时评估所有响应,并利用交叉熵损失直接学习响应之间的偏好关系。这种方法能够显著提高评估效率,并允许模型进行更有效的比较推理。

技术框架:整体框架包括以下几个主要步骤:1. 将视觉输入(图像或视频)和问题输入编码为特征向量。2. 将多个候选响应(文本)与特殊的分隔符token连接成一个序列。3. 将连接后的序列输入到视觉语言模型(例如,基于Transformer的模型)中。4. 使用一个轻量级的MLP值头预测每个响应的标量奖励分数。5. 使用交叉熵损失函数,基于人工标注的响应排名或偏好数据,优化模型参数。

关键创新:最重要的技术创新点在于多响应输入的设计,它允许模型在单次前向传播中评估多个响应,并直接学习响应之间的偏好关系。这与传统的单响应评估方法形成鲜明对比,后者需要多次前向传播,效率较低。

关键设计:关键设计包括:1. 使用特殊的分隔符token来区分不同的响应。2. 使用交叉熵损失函数,将人工标注的响应排名或偏好数据转化为训练信号。3. 使用LoRA(Low-Rank Adaptation)技术对大型视觉语言模型进行微调,以降低计算成本。4. 使用轻量级的MLP值头,将视觉语言模型的输出映射到标量奖励分数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在MR$^2$Bench-Image、MR$^2$Bench-Video等六个多模态奖励基准上取得了SOTA结果,超越了现有更大的生成式和判别式奖励模型。在强化学习中,使用该奖励模型训练的策略模型在保持标准基准性能的同时,显著提高了开放式生成质量,优于单响应判别式奖励模型基线。

🎯 应用场景

该研究成果可广泛应用于多模态内容生成、对话系统、视频问答等领域。通过高效的奖励模型,可以提升生成内容的质量和用户满意度,并加速强化学习策略的训练。例如,在机器人控制中,可以利用该模型评估不同动作序列的优劣,从而训练出更智能的机器人。

📄 摘要(原文)

We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient $N$-way preference learning. The multi-response design also yields up to $N\times$ wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable $N$-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR$^2$Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR$^2$Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR$^2$Bench-Image, MR$^2$Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.