InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction

📄 arXiv: 2503.20287v2 📥 PDF

作者: Yuhui Wu, Liyi Chen, Ruibin Li, Shihao Wang, Chenxi Xie, Lei Zhang

分类: cs.CV

发布日期: 2025-03-26 (更新: 2025-07-11)

备注: Accepted by ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

InsViE-1M:通过精细数据集构建实现有效的基于指令的视频编辑

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频编辑 指令驱动 数据集构建 多阶段学习 GPT-4o 图像编辑 视频生成

📋 核心要点

  1. 现有基于指令的视频编辑数据集存在分辨率低、时长短、编辑质量差等问题,限制了编辑模型的性能。
  2. 论文提出InsViE-1M数据集,通过高质量的源视频和图像,以及有效的编辑-过滤流程,构建高质量的训练三元组。
  3. 论文提出多阶段学习策略训练InsViE模型,实验结果表明,InsViE-1M数据集和训练后的模型优于现有方法。

📝 摘要(中文)

基于指令的视频编辑允许仅使用指令对视频进行有效和交互式的编辑,而无需额外的输入,如掩码或属性。然而,收集高质量的训练三元组(源视频、编辑后的视频、指令)是一项具有挑战性的任务。现有的数据集大多由低分辨率、短时长和有限数量的源视频组成,编辑质量不尽如人意,限制了训练后的编辑模型的性能。在这项工作中,我们提出了一个高质量的基于指令的视频编辑数据集,包含100万个三元组,名为InsViE-1M。我们首先策划了高分辨率和高质量的源视频和图像,然后设计了一个有效的编辑-过滤流程,以构建高质量的编辑三元组用于模型训练。对于一个源视频,我们使用不同强度的无分类器引导生成其第一帧的多个编辑样本,这些样本由GPT-4o通过精心设计的指南自动过滤。编辑后的第一帧被传播到后续帧以生成编辑后的视频,然后进行另一轮过滤,以评估帧质量和运动。我们还从高质量的图像中生成和过滤各种视频编辑三元组。利用InsViE-1M数据集,我们提出了一种多阶段学习策略来训练我们的InsViE模型,逐步提高其指令遵循和编辑能力。大量的实验证明了我们的InsViE-1M数据集和训练后的模型优于最先进的作品。

🔬 方法详解

问题定义:论文旨在解决基于指令的视频编辑任务中,由于缺乏高质量训练数据而导致的模型性能瓶颈问题。现有数据集存在分辨率低、时长短、编辑质量差等问题,无法有效训练出高质量的视频编辑模型。

核心思路:论文的核心思路是通过构建一个大规模、高质量的视频编辑数据集InsViE-1M,并结合多阶段训练策略,提升模型的指令遵循和编辑能力。高质量的数据是训练高性能模型的关键,而多阶段训练则可以逐步提升模型的各项能力。

技术框架:InsViE-1M的构建流程主要包括以下几个阶段:1) 高质量源视频和图像的收集;2) 基于Classifier-Free Guidance的图像编辑,并使用GPT-4o进行自动过滤;3) 将编辑后的首帧传播到后续帧,生成编辑后的视频,并进行帧质量和运动评估;4) 从高质量图像中生成和过滤视频编辑三元组。InsViE模型的训练采用多阶段学习策略,逐步提升模型的指令遵循和编辑能力。

关键创新:论文的关键创新在于数据集构建流程和多阶段训练策略。数据集构建流程通过GPT-4o的自动过滤,保证了编辑质量,而多阶段训练策略则可以逐步提升模型的各项能力。此外,数据集的规模(1M triplets)也是一个重要的贡献。

关键设计:在数据集构建方面,Classifier-Free Guidance的强度是一个关键参数,用于控制编辑的程度。GPT-4o的过滤规则也需要精心设计,以保证编辑质量。在模型训练方面,多阶段学习策略的具体阶段划分和损失函数的设计是关键。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用InsViE-1M数据集训练的InsViE模型在基于指令的视频编辑任务上取得了显著的性能提升,优于现有的state-of-the-art方法。具体性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于视频内容创作、视频编辑工具、智能视频监控等领域。例如,用户可以通过简单的指令,快速编辑视频内容,实现个性化的视频创作。在智能视频监控领域,可以通过指令修改视频内容,例如模糊敏感区域,保护隐私。

📄 摘要(原文)

Instruction-based video editing allows effective and interactive editing of videos using only instructions without extra inputs such as masks or attributes. However, collecting high-quality training triplets (source video, edited video, instruction) is a challenging task. Existing datasets mostly consist of low-resolution, short duration, and limited amount of source videos with unsatisfactory editing quality, limiting the performance of trained editing models. In this work, we present a high-quality Instruction-based Video Editing dataset with 1M triplets, namely InsViE-1M. We first curate high-resolution and high-quality source videos and images, then design an effective editing-filtering pipeline to construct high-quality editing triplets for model training. For a source video, we generate multiple edited samples of its first frame with different intensities of classifier-free guidance, which are automatically filtered by GPT-4o with carefully crafted guidelines. The edited first frame is propagated to subsequent frames to produce the edited video, followed by another round of filtering for frame quality and motion evaluation. We also generate and filter a variety of video editing triplets from high-quality images. With the InsViE-1M dataset, we propose a multi-stage learning strategy to train our InsViE model, progressively enhancing its instruction following and editing ability. Extensive experiments demonstrate the advantages of our InsViE-1M dataset and the trained model over state-of-the-art works. Codes are available at \href{https://github.com/langmanbusi/InsViE}{InsViE}.