Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

作者: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

分类: cs.CL, cs.CV

发布日期: 2025-12-18

备注: Code and data available at https://github.com/facebookresearch/MMRB2

💡 一句话要点

提出Multimodal RewardBench 2，用于评估处理交错文本和图像的通用奖励模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 奖励模型 基准测试 图像文本交错 大型语言模型 多模态推理 人类偏好

📋 核心要点

现有奖励模型在处理交错文本和图像的多模态任务中表现不足，缺乏专门的评估基准。
提出Multimodal RewardBench 2 (MMRB2)，一个全面的多模态奖励模型评估基准，包含四个具有挑战性的任务。
实验表明，即使是强大的模型如Gemini 3 Pro，在MMRB2上的表现仍与人类专家存在差距，开源模型Qwen3-VL-32B表现接近Gemini 2.5 Flash。

📝 摘要（中文）

奖励模型（RMs）对于训练大型语言模型（LLMs）至关重要，但对于处理交错图像和文本序列的通用模型仍未得到充分探索。我们推出了Multimodal RewardBench 2（MMRB2），这是第一个全面的奖励模型基准，用于多模态理解和（交错）生成。MMRB2涵盖四个任务：文本到图像、图像编辑、交错生成和多模态推理（“用图像思考”），每个任务提供1000个专家标注的偏好对，这些数据来自23个模型和代理，涵盖21个源任务。MMRB2的设计特点包括：（1）实用但具有挑战性的提示；（2）来自最先进模型和代理的响应；（3）通过集成过滤策略策划的具有强烈人类专家共识的偏好对。使用MMRB2，我们研究了每个子任务的现有评判标准，包括多模态LLM-as-a-judge和使用人类偏好训练的模型。最新的Gemini 3 Pro达到了75-80%的准确率。GPT-5和Gemini 2.5 Pro达到了66-75%的准确率，而人类的准确率超过90%，但超过了广泛使用的GPT-4o（59%）。性能最佳的开源模型Qwen3-VL-32B实现了与Gemini 2.5 Flash（64%）相似的准确率。我们还表明，MMRB2的性能与使用Best-of-N抽样的下游任务成功率密切相关，并进行了深入分析，揭示了未来改进奖励模型的关键领域。

🔬 方法详解

问题定义：论文旨在解决多模态奖励模型评估标准缺失的问题，尤其是在处理交错文本和图像的任务中。现有的奖励模型在评估多模态内容理解和生成方面存在不足，缺乏一个全面、具有挑战性的基准来衡量其性能。这阻碍了多模态LLM的进一步发展。

核心思路：论文的核心思路是构建一个高质量、多样化的多模态奖励模型评估基准MMRB2。通过收集来自多个模型和代理的响应，并由人类专家进行标注，形成偏好对，以此来评估奖励模型在不同多模态任务中的表现。这种方法能够更全面地反映奖励模型在实际应用中的能力。

技术框架：MMRB2基准包含四个主要任务：文本到图像生成、图像编辑、交错生成和多模态推理。每个任务都包含1000个专家标注的偏好对，这些数据来自23个模型和代理，涵盖21个源任务。数据的收集和标注过程采用了集成过滤策略，以确保偏好对具有高度的人类专家共识。

关键创新：MMRB2的关键创新在于其全面性和高质量。它不仅涵盖了多种多模态任务，而且使用了来自最先进模型和代理的响应，并由人类专家进行标注。此外，MMRB2还采用了集成过滤策略，以确保偏好对的质量和一致性。这是首个针对多模态奖励模型的综合性基准。

关键设计：MMRB2的设计考虑了实际应用场景，使用了实用但具有挑战性的提示。偏好对的生成过程包括多个步骤，首先是收集来自不同模型和代理的响应，然后由人类专家对这些响应进行排序和标注。为了确保标注的质量，采用了集成过滤策略，即只有当多个专家对同一偏好对达成一致时，该偏好对才会被纳入基准。

🖼️ 关键图片

📊 实验亮点

MMRB2基准测试结果显示，Gemini 3 Pro在多模态任务上达到了75-80%的准确率，GPT-5和Gemini 2.5 Pro达到了66-75%的准确率，但仍低于人类专家的90%以上。开源模型Qwen3-VL-32B的性能与Gemini 2.5 Flash相当，达到了64%的准确率。MMRB2性能与下游任务成功率高度相关。

🎯 应用场景

该研究成果可应用于训练和评估多模态大型语言模型，提升模型在图像生成、图像编辑、多模态推理等任务中的性能。MMRB2基准的发布将促进多模态奖励模型的研究和发展，推动相关技术的进步，并最终提升多模态AI应用的质量和用户体验。

📄 摘要（原文）

Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册