MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation
作者: Haoyuan Shi, Yunxin Li, Nanhao Deng, Zhenran Xu, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang
分类: cs.MM, cs.CV
发布日期: 2026-02-27
💡 一句话要点
MSVBench:面向人类水平的多镜头视频生成评估基准
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多镜头视频生成 视频生成评估 大型多模态模型 混合评估框架 分层脚本 视频理解 长视频生成
📋 核心要点
- 现有视频生成评估基准主要关注单镜头,无法有效评估多镜头视频的连贯性和叙事性。
- MSVBench通过分层脚本和参考图像,为多镜头视频生成提供全面的评估基准。
- 混合评估框架结合大型多模态模型的语义推理和领域专家模型的感知能力,更准确地评估视频质量。
📝 摘要(中文)
视频生成正朝着复杂的多镜头叙事发展,但现有的评估方法存在严重不足。目前的基准主要集中于单镜头范式,缺乏评估长视频连贯性和吸引力所需的完整故事资产和跨镜头指标。为了弥补这一差距,我们推出了MSVBench,这是首个全面的基准,它具有为多镜头视频生成量身定制的分层脚本和参考图像。我们提出了一个混合评估框架,该框架将大型多模态模型(LMM)的高级语义推理与领域特定专家模型的细粒度感知严谨性相结合。通过评估20种不同范式的视频生成方法,我们发现当前的模型——尽管具有很强的视觉保真度——主要表现为视觉插值器,而不是真正的世界模型。我们通过展示与人类判断的94.4%的最先进的Spearman等级相关性,进一步验证了我们基准的可靠性。最后,MSVBench通过提供可扩展的监督信号,超越了评估的范畴。在其pipeline-refined推理轨迹上微调一个轻量级模型,可以产生与Gemini-2.5-Flash等商业模型相当的、与人类对齐的性能。
🔬 方法详解
问题定义:现有视频生成评估方法主要针对单镜头视频,缺乏对多镜头视频在故事连贯性、角色一致性、场景过渡等方面的评估能力。现有方法难以捕捉长视频的叙事逻辑和语义信息,导致评估结果与人类感知存在偏差。
核心思路:MSVBench的核心思路是构建一个包含分层脚本和参考图像的多镜头视频生成评估基准,并提出一个混合评估框架,结合大型多模态模型(LMM)的语义理解能力和领域专家模型的感知能力,从而更全面、准确地评估多镜头视频的质量。
技术框架:MSVBench包含以下几个主要组成部分:1) 多镜头视频数据集,包含分层脚本和参考图像;2) 混合评估框架,包括基于LMM的语义评估模块和基于领域专家模型的感知评估模块;3) 基于MSVBench的微调方法,利用pipeline-refined推理轨迹作为监督信号,提升视频生成模型的性能。
关键创新:MSVBench的关键创新在于:1) 首次提出了针对多镜头视频生成的全面评估基准;2) 提出了混合评估框架,结合了LMM的语义理解能力和领域专家模型的感知能力;3) 提供了可扩展的监督信号,可以通过微调提升视频生成模型的性能。
关键设计:MSVBench的分层脚本设计允许对视频进行多层次的评估,包括镜头内部的视觉质量、镜头之间的连贯性以及整体故事的叙事性。混合评估框架中,LMM用于评估视频的语义一致性和叙事逻辑,领域专家模型用于评估视频的视觉质量和真实感。微调过程中,pipeline-refined推理轨迹用于指导模型的学习,使其更好地理解视频的语义信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有视频生成模型在MSVBench上的表现主要为视觉插值,而非真正的世界模型。通过MSVBench评估,该论文验证了其与人类判断的高度一致性(Spearman等级相关性为94.4%)。此外,利用MSVBench提供的监督信号微调轻量级模型,可以达到与商业模型Gemini-2.5-Flash相当的性能。
🎯 应用场景
MSVBench可应用于视频生成模型的评估与改进,推动长视频内容创作,例如电影制作、游戏开发、广告设计等。该基准能够帮助研究人员和开发者更好地理解视频生成模型的优缺点,从而开发出更具创造力和实用性的视频生成技术,并促进相关产业的发展。
📄 摘要(原文)
The evolution of video generation toward complex, multi-shot narratives has exposed a critical deficit in current evaluation methods. Existing benchmarks remain anchored to single-shot paradigms, lacking the comprehensive story assets and cross-shot metrics required to assess long-form coherence and appeal. To bridge this gap, we introduce MSVBench, the first comprehensive benchmark featuring hierarchical scripts and reference images tailored for Multi-Shot Video generation. We propose a hybrid evaluation framework that synergizes the high-level semantic reasoning of Large Multimodal Models (LMMs) with the fine-grained perceptual rigor of domain-specific expert models. Evaluating 20 video generation methods across diverse paradigms, we find that current models--despite strong visual fidelity--primarily behave as visual interpolators rather than true world models. We further validate the reliability of our benchmark by demonstrating a state-of-the-art Spearman's rank correlation of 94.4% with human judgments. Finally, MSVBench extends beyond evaluation by providing a scalable supervisory signal. Fine-tuning a lightweight model on its pipeline-refined reasoning traces yields human-aligned performance comparable to commercial models like Gemini-2.5-Flash.