Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

📄 arXiv: 2502.14191v1 📥 PDF

作者: Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad

分类: cs.CV, cs.AI

发布日期: 2025-02-20

备注: Dataset available at https://github.com/facebookresearch/multimodal_rewardbench

🔗 代码/项目: GITHUB


💡 一句话要点

提出Multimodal RewardBench,用于全面评估视觉语言模型奖励模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 奖励模型 多模态评估 基准数据集 安全性 推理能力 专家标注

📋 核心要点

  1. 现有视觉语言模型(VLM)奖励模型的评估缺乏全面开放的基准,限制了模型性能的有效提升。
  2. Multimodal RewardBench通过提供专家标注的多模态数据集,覆盖六个关键领域,为VLM奖励模型提供全面评估。
  3. 实验表明,即使是顶尖VLM在推理和安全等领域仍存在显著不足,验证了该基准的挑战性和价值。

📝 摘要(中文)

奖励模型在训练视觉语言模型(VLMs)中起着至关重要的作用,它通过评估输出质量来使模型与人类偏好对齐。尽管奖励模型非常重要,但研究界缺乏用于评估VLM中多模态奖励模型的全面开放基准。为了弥补这一差距,我们推出了Multimodal RewardBench,这是一个由专家注释的基准,涵盖六个领域:通用正确性、偏好、知识、推理、安全性和视觉问答。我们的数据集包含5,211个带注释的(prompt, chosen response, rejected response)三元组,这些三元组是从各种VLM收集的。在评估一系列VLM judges时,我们发现即使是性能最佳的模型,Gemini 1.5 Pro和Claude 3.5 Sonnet,也仅达到72%的总体准确率。值得注意的是,大多数模型在推理和安全领域都表现不佳。这些发现表明,Multimodal RewardBench为推进跨多个领域的奖励模型开发提供了一个具有挑战性的测试平台。我们在https://github.com/facebookresearch/multimodal_rewardbench上发布了该基准。

🔬 方法详解

问题定义:现有的视觉语言模型奖励模型缺乏一个全面的评估基准。这意味着研究人员难以准确衡量和比较不同奖励模型的性能,尤其是在涉及多模态输入和复杂任务时。现有的评估方法可能过于片面,无法充分反映奖励模型在不同领域的表现,例如安全性、推理能力等。

核心思路:Multimodal RewardBench的核心思路是构建一个高质量、多领域覆盖的评估数据集,用于全面评估视觉语言模型的奖励模型。通过提供专家标注的(prompt, chosen response, rejected response)三元组,该基准能够更准确地衡量奖励模型对不同输出质量的区分能力。

技术框架:Multimodal RewardBench包含以下主要组成部分:1) 数据收集:从各种视觉语言模型中收集数据,确保数据集的多样性。2) 领域划分:将数据集划分为六个关键领域:通用正确性、偏好、知识、推理、安全性和视觉问答。3) 专家标注:由专家对(prompt, chosen response, rejected response)三元组进行标注,确保标注的质量和一致性。4) 评估指标:使用准确率等指标来评估奖励模型的性能。

关键创新:Multimodal RewardBench的关键创新在于其全面性和专业性。它不仅覆盖了多个关键领域,还采用了专家标注,从而保证了数据集的质量。此外,该基准还提供了一个统一的评估平台,方便研究人员进行比较和分析。与现有方法相比,Multimodal RewardBench能够更准确地反映奖励模型在不同领域的表现。

关键设计:Multimodal RewardBench的关键设计包括:1) 数据集规模:包含5,211个带注释的(prompt, chosen response, rejected response)三元组,确保数据集的统计有效性。2) 领域选择:选择六个关键领域,以全面评估奖励模型的性能。3) 标注指南:制定详细的标注指南,以确保标注的一致性和准确性。4) 评估指标:使用准确率作为主要评估指标,以衡量奖励模型对不同输出质量的区分能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是性能最佳的视觉语言模型,如Gemini 1.5 Pro和Claude 3.5 Sonnet,在Multimodal RewardBench上的总体准确率也仅为72%。值得注意的是,大多数模型在推理和安全领域都表现不佳。这些结果表明,Multimodal RewardBench为奖励模型的发展提供了一个具有挑战性的测试平台。

🎯 应用场景

Multimodal RewardBench可用于训练和评估视觉语言模型的奖励模型,从而提高模型与人类偏好的一致性。该基准可应用于各种视觉语言任务,例如图像描述、视觉问答和多模态对话。未来,该基准可以扩展到更多领域,并用于开发更强大的奖励模型,从而推动视觉语言模型的发展。

📄 摘要(原文)

Reward models play an essential role in training vision-language models (VLMs) by assessing output quality to enable aligning with human preferences. Despite their importance, the research community lacks comprehensive open benchmarks for evaluating multimodal reward models in VLMs. To address this gap, we introduce Multimodal RewardBench, an expert-annotated benchmark covering six domains: general correctness, preference, knowledge, reasoning, safety, and visual question-answering. Our dataset comprises 5,211 annotated (prompt, chosen response, rejected response) triplets collected from various VLMs. In evaluating a range of VLM judges, we find that even the top-performing models, Gemini 1.5 Pro and Claude 3.5 Sonnet, achieve only 72% overall accuracy. Notably, most models struggle in the reasoning and safety domains. These findings suggest that Multimodal RewardBench offers a challenging testbed for advancing reward model development across multiple domains. We release the benchmark at https://github.com/facebookresearch/multimodal_rewardbench.