VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects
作者: Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
分类: cs.CV, cs.AI, cs.CL
发布日期: 2026-04-17
💡 一句话要点
提出VEFX-Bench,用于评估通用视频编辑和视觉效果的综合基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频编辑 视觉效果 基准测试 奖励模型 质量评估
📋 核心要点
- 现有视频编辑评估缺乏大规模人工标注数据集和标准化评估器,限制了AI辅助视频编辑的发展。
- 提出VEFX-Dataset、VEFX-Reward和VEFX-Bench,分别用于数据收集、质量评估和系统比较。
- 实验表明VEFX-Reward与人类判断更一致,并揭示了现有视频编辑系统在多个维度上的差距。
📝 摘要(中文)
随着AI辅助视频创作日益普及,指令引导的视频编辑对于完善生成或捕获的素材以满足专业需求至关重要。然而,该领域仍然缺乏大规模的人工标注数据集以及用于比较编辑系统的标准化评估器。现有资源受限于规模小、缺少编辑后的输出或缺乏人工质量标签,而当前的评估通常依赖于昂贵的人工检查或非专门针对编辑质量的通用视觉-语言模型。我们引入了VEFX-Dataset,一个包含5049个视频编辑示例的人工标注数据集,涵盖9个主要编辑类别和32个子类别,每个示例都沿着三个解耦维度进行标注:指令遵循、渲染质量和编辑独特性。基于VEFX-Dataset,我们提出了VEFX-Reward,一个专门为视频编辑质量评估设计的奖励模型。VEFX-Reward联合处理源视频、编辑指令和编辑后的视频,并通过序数回归预测每个维度的质量分数。我们进一步发布了VEFX-Bench,一个包含300个精选视频-提示对的基准,用于标准化比较编辑系统。实验表明,VEFX-Reward在标准IQA/VQA指标和分组偏好评估方面,比通用VLM judges和先前的奖励模型更符合人类判断。使用VEFX-Reward作为评估器,我们对具有代表性的商业和开源视频编辑系统进行了基准测试,揭示了当前模型在视觉合理性、指令遵循和编辑局部性方面仍然存在差距。
🔬 方法详解
问题定义:当前AI辅助视频编辑领域缺乏一个全面、可靠的评估基准。现有数据集规模小,缺少编辑输出,或缺乏人工质量标注。现有的评估方法依赖于昂贵的人工评估或通用的视觉语言模型,这些模型并非专门为视频编辑质量评估而设计,无法准确反映编辑效果的优劣。
核心思路:论文的核心思路是构建一个包含高质量人工标注的数据集(VEFX-Dataset),并在此基础上训练一个专门用于视频编辑质量评估的奖励模型(VEFX-Reward)。该奖励模型能够综合考虑源视频、编辑指令和编辑后的视频,从而更准确地评估编辑质量。同时,论文还提出了一个标准化的评估基准(VEFX-Bench),用于公平地比较不同的视频编辑系统。
技术框架:VEFX-Bench的整体框架包含三个主要组成部分:VEFX-Dataset、VEFX-Reward和评估流程。VEFX-Dataset提供高质量的训练数据,VEFX-Reward作为评估器,评估流程则定义了如何使用VEFX-Reward来比较不同的视频编辑系统。VEFX-Reward模型接收源视频、编辑指令和编辑后的视频作为输入,通过一个深度神经网络提取特征,然后使用序数回归预测每个维度的质量分数(指令遵循、渲染质量和编辑独特性)。
关键创新:论文的关键创新在于提出了VEFX-Reward,一个专门为视频编辑质量评估设计的奖励模型。与通用的视觉语言模型相比,VEFX-Reward能够更好地理解视频编辑的特殊性,例如指令遵循和编辑局部性。此外,VEFX-Reward还采用了序数回归,能够更准确地预测质量分数。
关键设计:VEFX-Reward模型使用了一个三分支的神经网络结构,分别处理源视频、编辑指令和编辑后的视频。每个分支都包含卷积神经网络和Transformer层,用于提取视频和文本特征。然后,模型将三个分支的特征融合在一起,并使用序数回归预测每个维度的质量分数。损失函数采用交叉熵损失,优化目标是最小化预测分数与人工标注分数之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VEFX-Reward在评估视频编辑质量方面优于通用的视觉语言模型和先前的奖励模型。在标准IQA/VQA指标和分组偏好评估中,VEFX-Reward与人类判断的对齐程度更高。使用VEFX-Reward作为评估器,对多个商业和开源视频编辑系统进行了基准测试,揭示了现有模型在视觉合理性、指令遵循和编辑局部性方面仍然存在显著差距。
🎯 应用场景
该研究成果可应用于AI辅助视频编辑系统的开发和评估。VEFX-Bench提供了一个标准化的评估平台,可以帮助研究人员和开发者更好地比较不同的编辑系统,并发现其优缺点。VEFX-Reward可以作为视频编辑系统的自动评估指标,用于优化模型参数和提高编辑质量。此外,VEFX-Dataset还可以用于训练其他视频编辑相关的模型,例如视频生成和视频修复。
📄 摘要(原文)
As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet the field still lacks both a large-scale human-annotated dataset with complete editing examples and a standardized evaluator for comparing editing systems. Existing resources are limited by small scale, missing edited outputs, or the absence of human quality labels, while current evaluation often relies on expensive manual inspection or generic vision-language model judges that are not specialized for editing quality. We introduce VEFX-Dataset, a human-annotated dataset containing 5,049 video editing examples across 9 major editing categories and 32 subcategories, each labeled along three decoupled dimensions: Instruction Following, Rendering Quality, and Edit Exclusivity. Building on VEFX-Dataset, we propose VEFX-Reward, a reward model designed specifically for video editing quality assessment. VEFX-Reward jointly processes the source video, the editing instruction, and the edited video, and predicts per-dimension quality scores via ordinal regression. We further release VEFX-Bench, a benchmark of 300 curated video-prompt pairs for standardized comparison of editing systems. Experiments show that VEFX-Reward aligns more strongly with human judgments than generic VLM judges and prior reward models on both standard IQA/VQA metrics and group-wise preference evaluation. Using VEFX-Reward as an evaluator, we benchmark representative commercial and open-source video editing systems, revealing a persistent gap between visual plausibility, instruction following, and edit locality in current models.