Video-Bench: Human-Aligned Video Generation Benchmark

📄 arXiv: 2504.04907v2 📥 PDF

作者: Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni

分类: cs.CV, cs.AI

发布日期: 2025-04-07 (更新: 2025-04-29)

备注: Accepted by CVPR'25


💡 一句话要点

提出Video-Bench:一个更符合人类感知的视频生成评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 评估基准 多模态大语言模型 人类感知 少样本学习 链式查询 提示工程

📋 核心要点

  1. 现有视频生成评估基准缺乏与人类感知的对齐,且LLM基准对视频质量和跨模态理解有限。
  2. Video-Bench通过利用MLLM,结合少样本评分和链式查询技术,系统评估视频生成的多个维度。
  3. 实验表明Video-Bench与人类偏好高度对齐,并在某些情况下提供比人类更客观的评估。

📝 摘要(中文)

视频生成评估对于确保生成模型产生视觉上逼真、高质量且符合人类期望的视频至关重要。现有的视频生成基准主要分为两类:传统基准,使用指标和嵌入来评估生成视频在多个维度上的质量,但通常缺乏与人类判断的一致性;以及基于大型语言模型(LLM)的基准,虽然具有类似人类的推理能力,但受到对视频质量指标和跨模态一致性理解的限制。为了解决这些挑战,并建立一个更符合人类偏好的基准,本文提出了Video-Bench,一个包含丰富的提示套件和广泛的评估维度的综合基准。该基准首次尝试在生成模型中系统地利用MLLM来评估视频生成的所有相关维度。通过结合少样本评分和链式查询技术,Video-Bench为生成视频评估提供了一种结构化、可扩展的方法。在包括Sora在内的先进模型上的实验表明,Video-Bench在所有维度上都实现了与人类偏好的卓越对齐。此外,在我们的框架评估与人类评估不同的情况下,它始终提供更客观和准确的见解,表明其比传统人类判断具有更大的潜在优势。

🔬 方法详解

问题定义:现有视频生成评估方法存在两个主要问题。一是传统评估方法依赖于预定义的指标和嵌入,这些指标往往无法很好地捕捉人类对视频质量的感知。二是基于大型语言模型的评估方法虽然具备一定的推理能力,但对视频质量的理解以及跨模态一致性的判断仍然有限,无法全面评估生成视频的质量。因此,需要一个更符合人类感知的、能够全面评估视频生成质量的基准。

核心思路:Video-Bench的核心思路是利用多模态大型语言模型(MLLM)的强大能力,模拟人类的评估过程。通过设计合适的提示(prompt)和评估维度,让MLLM能够像人类一样对生成视频的质量进行判断。同时,采用少样本学习和链式查询技术,提高MLLM评估的准确性和可靠性。

技术框架:Video-Bench的技术框架主要包括以下几个部分: 1. 提示套件(Prompt Suite):包含丰富的提示,用于引导MLLM从不同维度评估视频质量,例如视觉逼真度、内容一致性、时间连贯性等。 2. 评估维度(Evaluation Dimensions):定义了多个评估维度,涵盖视频生成的各个方面,确保评估的全面性。 3. MLLM评估模块:使用MLLM对生成视频进行评估,根据提示套件和评估维度,给出相应的评分。 4. 少样本学习模块:利用少量人工标注的样本,提高MLLM评估的准确性。 5. 链式查询模块:通过多轮查询,逐步引导MLLM进行更深入的评估。

关键创新:Video-Bench最重要的技术创新点在于首次系统性地将MLLM应用于视频生成评估的各个维度。与传统的基于指标的评估方法相比,Video-Bench能够更好地捕捉人类对视频质量的感知。与现有的基于LLM的评估方法相比,Video-Bench通过提示工程和链式查询技术,提高了评估的准确性和可靠性。

关键设计:Video-Bench的关键设计包括: 1. 提示工程:精心设计的提示,引导MLLM从不同角度评估视频质量。 2. 评估维度:定义了多个评估维度,涵盖视频生成的各个方面。 3. 少样本学习:利用少量人工标注的样本,提高MLLM评估的准确性。 4. 链式查询:通过多轮查询,逐步引导MLLM进行更深入的评估。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Video-Bench在所有评估维度上都与人类偏好实现了卓越的对齐。在包括Sora在内的先进模型上的实验中,Video-Bench的评估结果与人类评估结果高度一致。更重要的是,在一些情况下,Video-Bench的评估结果甚至比人类评估更客观和准确,表明其具有超越传统人类判断的潜力。

🎯 应用场景

Video-Bench可广泛应用于视频生成模型的评估与改进,帮助研究人员开发出更符合人类期望的视频生成模型。该基准还可用于比较不同视频生成模型的性能,为用户选择合适的模型提供参考。此外,Video-Bench的评估方法可以推广到其他生成模型的评估中,例如图像生成、音频生成等。

📄 摘要(原文)

Video generation assessment is essential for ensuring that generative models produce visually realistic, high-quality videos while aligning with human expectations. Current video generation benchmarks fall into two main categories: traditional benchmarks, which use metrics and embeddings to evaluate generated video quality across multiple dimensions but often lack alignment with human judgments; and large language model (LLM)-based benchmarks, though capable of human-like reasoning, are constrained by a limited understanding of video quality metrics and cross-modal consistency. To address these challenges and establish a benchmark that better aligns with human preferences, this paper introduces Video-Bench, a comprehensive benchmark featuring a rich prompt suite and extensive evaluation dimensions. This benchmark represents the first attempt to systematically leverage MLLMs across all dimensions relevant to video generation assessment in generative models. By incorporating few-shot scoring and chain-of-query techniques, Video-Bench provides a structured, scalable approach to generated video evaluation. Experiments on advanced models including Sora demonstrate that Video-Bench achieves superior alignment with human preferences across all dimensions. Moreover, in instances where our framework's assessments diverge from human evaluations, it consistently offers more objective and accurate insights, suggesting an even greater potential advantage over traditional human judgment.