VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization

📄 arXiv: 2512.16906v1 📥 PDF

作者: Xiaoyan Cong, Haotian Yang, Angtian Wang, Yizhi Wang, Yiding Yang, Canyu Zhang, Chongyang Ma

分类: cs.CV

发布日期: 2025-12-18


💡 一句话要点

VIVA:利用VLM引导和奖励优化的指令驱动视频编辑框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频编辑 指令驱动 视觉语言模型 扩散模型 奖励优化

📋 核心要点

  1. 现有基于扩散模型的视频编辑方法依赖简单编辑操作的配对数据训练,泛化到复杂指令的能力有限。
  2. VIVA利用VLM编码指令和视频信息,并采用奖励优化策略,提升模型对复杂指令的理解和执行能力。
  3. 实验结果表明,VIVA在指令遵循、内容保持和编辑质量上超越了现有技术水平,具有显著优势。

📝 摘要(中文)

本文提出VIVA,一个可扩展的指令驱动视频编辑框架,它利用VLM引导的编码和奖励优化来解决现有方法泛化能力不足的问题。VIVA首先引入一个基于VLM的指导器,将文本指令、源视频的第一帧以及可选的参考图像编码为视觉对齐的指令表示,为扩散Transformer主干网络提供精细的空间和语义上下文。其次,提出了一个后训练阶段Edit-GRPO,将Group Relative Policy Optimization适配到视频编辑领域,使用相对奖励直接优化模型,使其生成符合指令、保持内容一致且美观的编辑结果。此外,还设计了一个数据构建流程,用于合成生成多样且高质量的视频-指令对数据。大量实验表明,VIVA在指令遵循、泛化能力和编辑质量方面均优于现有方法。

🔬 方法详解

问题定义:指令驱动的视频编辑旨在根据自然语言指令修改输入视频,同时保持内容一致性和时间连贯性。现有方法主要依赖于在简单编辑操作的配对数据上训练的扩散模型,这限制了它们在处理多样化和复杂的真实世界指令时的泛化能力。这些方法难以理解复杂指令中的细粒度语义信息,并且难以在编辑过程中保持视频内容的原有特征。

核心思路:VIVA的核心思路是利用视觉语言模型(VLM)来增强模型对指令的理解能力,并通过奖励优化来提升编辑质量。VLM能够将文本指令和视频帧编码为统一的视觉语义空间中的表示,从而为扩散模型提供更丰富的上下文信息。奖励优化则允许模型直接学习如何生成符合指令、保持内容一致且美观的编辑结果,而无需依赖大量的配对数据。

技术框架:VIVA框架主要包含两个阶段:VLM引导的编码和奖励优化。首先,VLM-based Instructor模块将文本指令、源视频的第一帧以及可选的参考图像编码为视觉对齐的指令表示。然后,这些表示被输入到扩散Transformer主干网络中,用于指导视频编辑过程。在后训练阶段,Edit-GRPO模块使用Group Relative Policy Optimization算法,根据相对奖励来优化模型参数,从而提升编辑质量。

关键创新:VIVA的关键创新在于以下几点:1) 引入VLM来增强模型对指令的理解能力,从而更好地处理复杂指令。2) 提出Edit-GRPO,将Group Relative Policy Optimization适配到视频编辑领域,直接优化编辑质量。3) 设计了一个数据构建流程,用于合成生成多样且高质量的视频-指令对数据,从而缓解了数据稀缺问题。与现有方法相比,VIVA能够更好地理解复杂指令,并生成更高质量的编辑结果。

关键设计:VLM-based Instructor使用了预训练的视觉语言模型,例如CLIP,来提取文本和图像的特征。Edit-GRPO使用相对奖励来评估编辑结果的质量,例如,判断一个编辑结果是否比另一个更符合指令或更美观。数据构建流程使用程序化生成和人工标注相结合的方式,生成多样化的视频-指令对数据。具体的损失函数包括指令遵循损失、内容保持损失和美学损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VIVA在多个指标上均优于现有方法。例如,在指令遵循度方面,VIVA比现有最佳方法提高了10%以上。在用户偏好度方面,VIVA生成的编辑结果更受用户青睐。此外,VIVA还具有良好的泛化能力,能够处理各种复杂指令和不同类型的视频内容。

🎯 应用场景

VIVA具有广泛的应用前景,包括视频内容创作、社交媒体编辑、广告制作、教育视频生成等。它可以帮助用户轻松地根据自然语言指令修改视频内容,例如改变视频风格、添加特效、替换对象等。VIVA的出现有望降低视频编辑的门槛,让更多人能够参与到视频创作中来,并推动视频内容产业的发展。

📄 摘要(原文)

Instruction-based video editing aims to modify an input video according to a natural-language instruction while preserving content fidelity and temporal coherence. However, existing diffusion-based approaches are often trained on paired data of simple editing operations, which fundamentally limits their ability to generalize to diverse and complex, real-world instructions. To address this generalization gap, we propose VIVA, a scalable framework for instruction-based video editing that leverages VLM-guided encoding and reward optimization. First, we introduce a VLM-based instructor that encodes the textual instruction, the first frame of the source video, and an optional reference image into visually-grounded instruction representations, providing fine-grained spatial and semantic context for the diffusion transformer backbone. Second, we propose a post-training stage, Edit-GRPO, which adapts Group Relative Policy Optimization to the domain of video editing, directly optimizing the model for instruction-faithful, content-preserving, and aesthetically pleasing edits using relative rewards. Furthermore, we propose a data construction pipeline designed to synthetically generate diverse, high-fidelity paired video-instruction data of basic editing operations. Extensive experiments show that VIVA achieves superior instruction following, generalization, and editing quality over state-of-the-art methods. Website: https://viva-paper.github.io