VDOT: Efficient Unified Video Creation via Optimal Transport Distillation

作者: Yutong Wang, Haiyu Zhang, Tianfan Xue, Yu Qiao, Yaohui Wang, Chang Xu, Xinyuan Chen

分类: cs.CV

发布日期: 2025-12-07 (更新: 2025-12-22)

💡 一句话要点

VDOT：通过最优传输蒸馏实现高效统一的视频生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频生成 最优传输 蒸馏学习 分布匹配 生成模型

📋 核心要点

现有视频生成模型存在生成时间过长或仅支持特定条件的问题，限制了其在实际场景中的应用。
VDOT模型采用分布匹配蒸馏范式，并引入最优传输（OT）技术来优化真实和伪造分数分布的差异。
实验结果表明，VDOT仅需4步即可达到或超过其他需要100步去噪的基线模型性能。

📝 摘要（中文）

生成模型的发展显著推动了图像和视频应用。其中，视频生成旨在各种条件下生成视频，受到了广泛关注。然而，现有的视频生成模型要么只关注少数特定条件，要么由于复杂的模型推理而导致生成时间过长，使其在实际应用中不切实际。为了缓解这些问题，我们提出了一种高效的统一视频生成模型，名为VDOT。具体而言，我们使用分布匹配蒸馏（DMD）范式对训练过程进行建模。除了使用Kullback-Leibler（KL）最小化之外，我们还采用了一种新的计算最优传输（OT）技术来优化真实和伪造分数分布之间的差异。OT距离本质上施加了几何约束，减轻了在基于KL的蒸馏中可能出现的零强制或梯度崩溃问题，从而提高了蒸馏过程的效率和稳定性。此外，我们集成了一个判别器，使模型能够感知真实的视频数据，从而提高生成视频的质量。为了支持统一视频生成模型的训练，我们提出了一个全自动的视频数据标注和过滤流程，以适应多个视频生成任务。同时，我们策划了一个统一的测试基准UVCBench，以标准化评估。实验表明，我们的4步VDOT优于或匹配其他具有100个去噪步骤的基线。

🔬 方法详解

问题定义：现有视频生成模型通常存在两个主要问题：一是模型复杂度高，推理时间长，难以满足实时性要求；二是模型泛化能力弱，只能处理特定条件的视频生成任务，无法统一处理多种生成任务。这些问题限制了视频生成技术在实际应用中的推广。

核心思路：VDOT的核心思路是利用分布匹配蒸馏（DMD）框架，将复杂的生成过程转化为一个高效的蒸馏过程。通过最小化真实数据和生成数据分布之间的差异，使得模型能够快速生成高质量的视频。同时，引入最优传输（OT）技术来更好地匹配分布，并加入判别器提升生成质量。

技术框架：VDOT的整体框架包括以下几个主要模块：1) 教师模型（Teacher Model）：一个预训练的、能够生成高质量视频的复杂模型。2) 学生模型（Student Model）：一个轻量级的模型，通过蒸馏学习教师模型的知识。3) 分布匹配模块：使用最优传输（OT）技术来计算真实数据和生成数据分布之间的距离，并优化学生模型。4) 判别器（Discriminator）：用于区分真实视频和生成视频，从而提高生成视频的真实感。5) 视频数据标注和过滤流程：用于支持统一视频生成模型的训练。

关键创新：VDOT的关键创新在于引入了最优传输（OT）技术来优化分布匹配过程。相比于传统的KL散度，OT距离能够更好地捕捉分布之间的几何结构，避免了KL散度可能导致的零强制或梯度消失问题，从而提高了蒸馏的效率和稳定性。此外，VDOT还提出了一个全自动的视频数据标注和过滤流程，以及一个统一的测试基准UVCBench。

关键设计：VDOT的关键设计包括：1) 使用最优传输（OT）距离作为损失函数的一部分，用于优化学生模型。2) 设计了一个判别器，用于提高生成视频的质量。3) 提出了一个全自动的视频数据标注和过滤流程，用于构建大规模的训练数据集。4) 提出了一个统一的测试基准UVCBench，用于标准化评估视频生成模型的性能。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

VDOT在UVCBench基准测试中表现出色，仅使用4步去噪就能够达到或超过其他需要100步去噪的基线模型的性能。这表明VDOT具有很高的效率和生成质量。此外，VDOT还能够处理多种视频生成任务，证明了其良好的泛化能力。

🎯 应用场景

VDOT具有广泛的应用前景，例如视频编辑、游戏开发、电影制作、虚拟现实等领域。它可以用于快速生成各种类型的视频内容，例如根据文本描述生成视频、根据图像生成视频、根据音乐生成视频等。VDOT的高效性和泛化能力使其能够满足实际应用的需求，并推动视频生成技术的发展。

📄 摘要（原文）

The rapid development of generative models has significantly advanced image and video applications. Among these, video creation, aimed at generating videos under various conditions, has gained substantial attention. However, existing video creation models either focus solely on a few specific conditions or suffer from excessively long generation times due to complex model inference, making them impractical for real-world applications. To mitigate these issues, we propose an efficient unified video creation model, named VDOT. Concretely, we model the training process with the distribution matching distillation (DMD) paradigm. Instead of using the Kullback-Leibler (KL) minimization, we additionally employ a novel computational optimal transport (OT) technique to optimize the discrepancy between the real and fake score distributions. The OT distance inherently imposes geometric constraints, mitigating potential zero-forcing or gradient collapse issues that may arise during KL-based distillation within the few-step generation scenario, and thus, enhances the efficiency and stability of the distillation process. Further, we integrate a discriminator to enable the model to perceive real video data, thereby enhancing the quality of generated videos. To support training unified video creation models, we propose a fully automated pipeline for video data annotation and filtering that accommodates multiple video creation tasks. Meanwhile, we curate a unified testing benchmark, UVCBench, to standardize evaluation. Experiments demonstrate that our 4-step VDOT outperforms or matches other baselines with 100 denoising steps.

VDOT: Efficient Unified Video Creation via Optimal Transport Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理