VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

📄 arXiv: 2411.17451v2 📥 PDF

作者: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

分类: cs.CV, cs.CL

发布日期: 2024-11-26 (更新: 2025-06-02)

备注: CVPR 2025 Camera Ready Version. Project page: https://vl-rewardbench.github.io


💡 一句话要点

提出VL-RewardBench,用于评估和提升视觉-语言生成奖励模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 奖励模型 基准测试 多模态学习 模型评估

📋 核心要点

  1. 现有视觉-语言生成奖励模型(VL-GenRMs)的评估依赖AI标注,存在偏差且难以挑战先进模型。
  2. 提出VL-RewardBench基准,包含多模态查询、视觉幻觉检测和复杂推理,用于评估VL-GenRMs的局限性。
  3. 实验表明,VL-RewardBench具有挑战性,并揭示了提升VL-GenRMs的关键因素,如视觉感知能力。

📝 摘要(中文)

视觉-语言生成奖励模型(VL-GenRMs)在对齐和评估多模态AI系统中起着关键作用,但对其自身的评估仍未被充分探索。目前的评估方法主要依赖于来自传统VL任务的AI标注的偏好标签,这可能会引入偏差,并且通常无法有效地挑战最先进的模型。为了解决这些局限性,我们引入了VL-RewardBench,这是一个综合性的基准,涵盖了一般多模态查询、视觉幻觉检测和复杂推理任务。通过我们结合样本选择和人工验证的AI辅助标注流程,我们精心策划了1,250个高质量的示例,专门用于探测VL-GenRMs的局限性。对16个领先的大型视觉-语言模型的全面评估表明,VL-RewardBench作为一个具有挑战性的测试平台是有效的,即使是GPT-4o也仅达到65.4%的准确率,而诸如Qwen2-VL-72B之类的最先进的开源模型也难以超过随机猜测。重要的是,VL-RewardBench上的性能与使用VL-GenRMs进行Best-of-N采样的MMMU-Pro准确率密切相关(Pearson's r > 0.9)。分析实验揭示了改进VL-GenRMs的三个关键见解:(i)模型主要在基本的视觉感知任务而非推理任务中失败;(ii)推理时缩放的好处因模型容量而异;(iii)训练VL-GenRMs学习判断可以显著提高判断能力(对于7B VL-GenRM,准确率提高+14.7%)。我们相信VL-RewardBench以及实验见解将成为推进VL-GenRMs的宝贵资源。

🔬 方法详解

问题定义:论文旨在解决视觉-语言生成奖励模型(VL-GenRMs)评估不足的问题。现有评估方法依赖于AI标注的偏好标签,存在偏差,无法有效评估最先进的模型,尤其是在视觉感知、幻觉检测和复杂推理方面。

核心思路:论文的核心思路是构建一个更具挑战性和代表性的基准测试集VL-RewardBench,该基准包含高质量、多样化的测试用例,能够更全面地评估VL-GenRMs的性能,并揭示其在不同任务上的优缺点。通过人工验证的AI辅助标注流程,确保基准的质量和可靠性。

技术框架:VL-RewardBench的构建流程主要包括以下几个阶段:1) 任务选择:选择涵盖一般多模态查询、视觉幻觉检测和复杂推理等任务。2) 样本生成:利用AI辅助生成候选样本。3) 人工验证:对候选样本进行人工筛选和标注,确保样本质量。4) 模型评估:使用VL-RewardBench评估多个VL-GenRMs的性能。5) 结果分析:分析评估结果,找出模型存在的不足,并提出改进建议。

关键创新:VL-RewardBench的关键创新在于其高质量的测试用例和全面的评估任务。与以往依赖AI标注的基准不同,VL-RewardBench通过人工验证确保了样本的准确性和可靠性。此外,该基准涵盖了多种类型的任务,能够更全面地评估VL-GenRMs的性能。

关键设计:VL-RewardBench包含1250个高质量的示例,涵盖一般多模态查询、视觉幻觉检测和复杂推理任务。采用AI辅助标注流程,结合样本选择与人工验证,确保样本质量。实验中,使用Pearson相关系数来衡量VL-RewardBench性能与MMMU-Pro准确率之间的相关性。通过消融实验,分析不同因素对VL-GenRMs性能的影响,例如模型容量、推理时缩放等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在VL-RewardBench上,即使是GPT-4o也仅达到65.4%的准确率,而Qwen2-VL-72B等开源模型难以超过随机猜测,表明该基准具有挑战性。VL-RewardBench上的性能与MMMU-Pro准确率高度相关(Pearson's r > 0.9)。通过训练VL-GenRMs学习判断,可以显著提高判断能力(对于7B VL-GenRM,准确率提高+14.7%)。

🎯 应用场景

VL-RewardBench可用于评估和改进视觉-语言生成奖励模型,从而提升多模态AI系统的性能。该基准可应用于开发更可靠、更准确的视觉-语言模型,并促进其在图像理解、对话生成、机器人控制等领域的应用。未来,该基准可以扩展到更多模态和任务,以适应不断发展的多模态AI技术。

📄 摘要(原文)

Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline that combines sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe VL-GenRMs limitations. Comprehensive evaluation across 16 leading large vision-language models demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r $>$ 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.