UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

📄 arXiv: 2503.09949v3 📥 PDF

作者: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang

分类: cs.CV

发布日期: 2025-03-13 (更新: 2025-10-14)


💡 一句话要点

提出UVE-Bench,探索MLLM作为AI生成视频统一评估器的可行性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成视频评估 多模态大语言模型 统一评估器 UVE-Bench 视频质量评估

📋 核心要点

  1. 现有AI生成视频评估方法缺乏通用性,难以满足日益增长的细粒度和全面评估需求。
  2. 利用MLLM强大的视觉和语言能力,将其作为统一评估器,无需针对特定方面训练专门模型。
  3. 构建UVE-Bench基准,包含15个评估方面的成对人工偏好,实验表明MLLM优于现有方法。

📝 摘要(中文)

随着视频生成模型(VGMs)的快速发展,开发可靠且全面的AI生成视频(AIGV)自动评估指标至关重要。现有方法要么使用针对其他任务优化的现成模型,要么依赖人工评估数据来训练专门的评估器。这些方法受限于特定的评估方面,并且难以随着对更精细和更全面评估的需求增加而扩展。为了解决这个问题,本研究探讨了使用多模态大型语言模型(MLLM)作为AIGV统一评估器的可行性,利用它们强大的视觉感知和语言理解能力。为了评估自动指标在统一AIGV评估中的性能,我们引入了一个名为UVE-Bench的基准。UVE-Bench收集了最先进的VGMs生成的视频,并提供了跨15个评估方面成对的人工偏好注释。使用UVE-Bench,我们广泛评估了18个MLLM。我们的实验结果表明,虽然先进的MLLM(例如,Qwen2VL-72B和InternVL2.5-78B)仍然落后于人类评估者,但它们在统一AIGV评估中表现出令人鼓舞的能力,显著超过了现有的专门评估方法。此外,我们对影响MLLM驱动的评估器性能的关键设计选择进行了深入分析,为未来AIGV评估的研究提供了宝贵的见解。

🔬 方法详解

问题定义:现有AI生成视频(AIGV)的评估方法存在局限性,要么是针对特定任务优化的模型,泛化性差;要么依赖大量人工标注数据训练专用评估器,成本高昂且难以扩展到新的评估维度。因此,需要一种更通用、更高效的AIGV评估方法。

核心思路:利用多模态大型语言模型(MLLM)强大的视觉感知和语言理解能力,将其作为统一的AIGV评估器。MLLM能够理解视频内容并进行推理,从而避免了针对不同评估方面训练专门模型的需要。这种方法旨在提高评估的灵活性和效率。

技术框架:该研究的核心是构建一个名为UVE-Bench的基准数据集,用于评估MLLM在AIGV评估中的性能。UVE-Bench包含由最先进的视频生成模型生成的视频,并提供了15个评估方面的成对人工偏好注释。研究人员使用UVE-Bench来评估18个不同的MLLM,并分析了影响MLLM性能的关键设计选择。

关键创新:该研究的关键创新在于探索了使用MLLM作为AIGV统一评估器的可行性。与现有方法相比,MLLM能够处理更广泛的评估方面,并且不需要针对每个方面进行专门训练。此外,UVE-Bench的构建为评估AIGV评估指标提供了一个标准化的平台。

关键设计:研究中分析了影响MLLM性能的关键设计选择,例如提示工程(prompt engineering)和模型规模。通过实验,研究人员发现合适的提示可以显著提高MLLM的评估准确性。此外,更大的模型通常表现更好,但收益递减。具体的参数设置和损失函数取决于所使用的MLLM的架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,先进的MLLM(如Qwen2VL-72B和InternVL2.5-78B)在统一AIGV评估中表现出令人鼓舞的能力,显著超过了现有的专门评估方法。虽然MLLM的性能仍落后于人类评估者,但其在多个评估方面都取得了有竞争力的结果。此外,研究还发现,合适的提示工程可以显著提高MLLM的评估准确性。

🎯 应用场景

该研究成果可应用于AI生成视频的质量评估、模型优化和用户体验提升。通过自动评估视频质量,可以帮助开发者改进视频生成模型,提高生成视频的逼真度和艺术性。此外,该方法还可以用于内容审核和推荐系统,过滤低质量或不适宜的视频内容,并向用户推荐更符合其偏好的视频。

📄 摘要(原文)

With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 18 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation.