VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

作者: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

分类: cs.CV, cs.CL

发布日期: 2024-11-26 (更新: 2025-06-02)

备注: CVPR 2025 Camera Ready Version. Project page: https://vl-rewardbench.github.io

💡 一句话要点

提出VL-RewardBench，用于评估和提升视觉-语言生成奖励模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 奖励模型 基准测试 多模态学习 模型评估

📋 核心要点

现有视觉-语言生成奖励模型(VL-GenRMs)的评估依赖AI标注，存在偏差且难以挑战先进模型。
提出VL-RewardBench基准，包含多模态查询、视觉幻觉检测和复杂推理，用于评估VL-GenRMs的局限性。
实验表明，VL-RewardBench具有挑战性，并揭示了提升VL-GenRMs的关键因素，如视觉感知能力。

📝 摘要（中文）

视觉-语言生成奖励模型(VL-GenRMs)在对齐和评估多模态AI系统中起着关键作用，但对其自身的评估仍未被充分探索。目前的评估方法主要依赖于来自传统VL任务的AI标注的偏好标签，这可能会引入偏差，并且通常无法有效地挑战最先进的模型。为了解决这些局限性，我们引入了VL-RewardBench，这是一个综合性的基准，涵盖了一般多模态查询、视觉幻觉检测和复杂推理任务。通过我们结合样本选择和人工验证的AI辅助标注流程，我们精心策划了1,250个高质量的示例，专门用于探测VL-GenRMs的局限性。对16个领先的大型视觉-语言模型的全面评估表明，VL-RewardBench作为一个具有挑战性的测试平台是有效的，即使是GPT-4o也仅达到65.4%的准确率，而诸如Qwen2-VL-72B之类的最先进的开源模型也难以超过随机猜测。重要的是，VL-RewardBench上的性能与使用VL-GenRMs进行Best-of-N采样的MMMU-Pro准确率密切相关（Pearson's r > 0.9）。分析实验揭示了改进VL-GenRMs的三个关键见解：（i）模型主要在基本的视觉感知任务而非推理任务中失败；（ii）推理时缩放的好处因模型容量而异；（iii）训练VL-GenRMs学习判断可以显著提高判断能力（对于7B VL-GenRM，准确率提高+14.7%）。我们相信VL-RewardBench以及实验见解将成为推进VL-GenRMs的宝贵资源。

🔬 方法详解

问题定义：论文旨在解决视觉-语言生成奖励模型（VL-GenRMs）评估不足的问题。现有评估方法依赖于AI标注的偏好标签，存在偏差，无法有效评估最先进的模型，尤其是在视觉感知、幻觉检测和复杂推理方面。

核心思路：论文的核心思路是构建一个更具挑战性和代表性的基准测试集VL-RewardBench，该基准包含高质量、多样化的测试用例，能够更全面地评估VL-GenRMs的性能，并揭示其在不同任务上的优缺点。通过人工验证的AI辅助标注流程，确保基准的质量和可靠性。

技术框架：VL-RewardBench的构建流程主要包括以下几个阶段：1) 任务选择：选择涵盖一般多模态查询、视觉幻觉检测和复杂推理等任务。2) 样本生成：利用AI辅助生成候选样本。3) 人工验证：对候选样本进行人工筛选和标注，确保样本质量。4) 模型评估：使用VL-RewardBench评估多个VL-GenRMs的性能。5) 结果分析：分析评估结果，找出模型存在的不足，并提出改进建议。

关键创新：VL-RewardBench的关键创新在于其高质量的测试用例和全面的评估任务。与以往依赖AI标注的基准不同，VL-RewardBench通过人工验证确保了样本的准确性和可靠性。此外，该基准涵盖了多种类型的任务，能够更全面地评估VL-GenRMs的性能。

关键设计：VL-RewardBench包含1250个高质量的示例，涵盖一般多模态查询、视觉幻觉检测和复杂推理任务。采用AI辅助标注流程，结合样本选择与人工验证，确保样本质量。实验中，使用Pearson相关系数来衡量VL-RewardBench性能与MMMU-Pro准确率之间的相关性。通过消融实验，分析不同因素对VL-GenRMs性能的影响，例如模型容量、推理时缩放等。

🖼️ 关键图片

📊 实验亮点

在VL-RewardBench上，即使是GPT-4o也仅达到65.4%的准确率，而Qwen2-VL-72B等开源模型难以超过随机猜测，表明该基准具有挑战性。VL-RewardBench上的性能与MMMU-Pro准确率高度相关（Pearson's r > 0.9）。通过训练VL-GenRMs学习判断，可以显著提高判断能力（对于7B VL-GenRM，准确率提高+14.7%）。

🎯 应用场景

VL-RewardBench可用于评估和改进视觉-语言生成奖励模型，从而提升多模态AI系统的性能。该基准可应用于开发更可靠、更准确的视觉-语言模型，并促进其在图像理解、对话生成、机器人控制等领域的应用。未来，该基准可以扩展到更多模态和任务，以适应不断发展的多模态AI技术。

📄 摘要（原文）

Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline that combines sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe VL-GenRMs limitations. Comprehensive evaluation across 16 leading large vision-language models demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r $>$ 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理