Video Understanding Reward Modeling: A Robust Benchmark and Performant Reward Models
作者: Yuancheng Wei, Linli Yao, Lei Li, Haojie Zhang, Hao Zhou, Fandong Meng, Xu Sun
分类: cs.CV, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出视频理解奖励模型基准VURB与大规模偏好数据集VUP-35K,显著提升视频生成与理解任务的对齐效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 奖励模型 思维链推理 多模态对齐 偏好学习 Best-of-N扩展
📋 核心要点
- 现有视频奖励模型受限于评估基准缺失及高质量偏好数据匮乏,难以有效衡量模型在复杂视频理解任务中的对齐表现。
- 提出统一框架,构建包含长思维链的VURB基准与自动化生成的大规模VUP-35K数据集,为视频奖励模型训练提供高质量监督。
- 训练的VideoDRM与VideoGRM模型在多项基准测试中达到SOTA水平,并证实了其在Best-of-N推理扩展中的显著性能增益。
📝 摘要(中文)
多模态奖励模型在文本和图像领域已取得显著进展,但在视频理解领域,由于缺乏稳健的评估基准和高质量偏好数据,相关研究仍受限。为解决此问题,本文提出了一个涵盖基准设计、数据构建和奖励模型训练的统一框架。我们引入了Video Understanding Reward Bench (VURB),这是一个包含2,100个偏好对的基准,具有长思维链推理轨迹(平均1,143 tokens),并支持跨通用、长视频及推理导向任务的多数投票评估。此外,我们通过全自动化流水线构建了Video Understanding Preference Dataset (VUP-35K),为视频奖励训练提供了大规模高质量监督。基于此数据,我们训练了判别式奖励模型VideoDRM和生成式奖励模型VideoGRM,两者在VURB和VideoRewardBench上均达到SOTA性能。分析表明,VUP-35K增强了奖励性能与模型推理能力,且VideoDRM和VideoGRM在Best-of-N测试时扩展中表现出显著增益。
🔬 方法详解
问题定义:当前视频理解领域缺乏针对奖励模型的标准化评估基准,且高质量的视频偏好数据稀缺,导致模型难以在长视频理解、复杂推理等任务上实现精准的对齐与反馈。
核心思路:通过构建高质量、长思维链的评估基准(VURB)与大规模自动化偏好数据集(VUP-35K),建立一套闭环的视频奖励模型训练与评估体系,以提升模型对视频内容的细粒度理解与逻辑推理能力。
技术框架:该框架包含三个阶段:首先是VURB基准的构建,通过长思维链引导模型进行多维度评估;其次是利用自动化流水线生成VUP-35K数据集,提供大规模监督信号;最后训练判别式(VideoDRM)与生成式(VideoGRM)两种奖励模型,并验证其在Best-of-N策略下的扩展性。
关键创新:引入了长思维链(CoT)作为奖励模型的评估依据,不仅关注结果正确性,更强调推理过程的逻辑性;同时,全自动化的数据构建流水线有效解决了大规模视频偏好数据获取难的问题。
关键设计:VURB基准包含2,100个偏好对,平均思维链长度达1,143 tokens;模型训练采用对比学习与生成式反馈机制,确保模型在处理长视频和复杂逻辑任务时具备更强的鲁棒性与区分度。
🖼️ 关键图片
📊 实验亮点
实验结果显示,VideoDRM和VideoGRM在VURB及VideoRewardBench上均刷新了SOTA记录。VUP-35K数据集显著提升了模型在推理任务上的表现,且在Best-of-N测试时扩展中,模型性能随N的增加呈现出明显的正向增长趋势,证明了该方法在复杂视频理解任务中的有效性。
🎯 应用场景
该研究成果可广泛应用于视频生成模型(如Sora类模型)的对齐训练、视频问答系统的反馈优化以及长视频内容分析。通过提供更精准的奖励信号,能够显著提升多模态大模型在复杂视频场景下的逻辑推理与内容生成质量,具有极高的工业应用价值。
📄 摘要(原文)
Multimodal reward models have advanced substantially in text and image domains, yet progress in video understanding reward modeling remains severely limited by the lack of robust evaluation benchmarks and high-quality preference data. To address this, we propose a unified framework spanning benchmark design, data construction, and reward model training. We introduce Video Understanding Reward Bench (VURB), a benchmark featuring 2,100 preference pairs with long chain-of-thought reasoning traces (averaging 1,143 tokens) and majority voting evaluation across general, long, and reasoning-oriented video tasks. We further construct Video Understanding Preference Dataset (VUP-35K) via a fully automated pipeline, providing large-scale high-quality supervision for video reward training. Building on the data, we train VideoDRM and VideoGRM, a discriminative and a generative reward model, both achieving state-of-the-art performance on VURB and VideoRewardBench. Further analysis confirms that VUP-35K enhances both reward performance and model reasoning capability, while VideoDRM and VideoGRM yield significant gains under best-of-$N$ test-time scaling.