DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

📄 arXiv: 2412.15689v1 📥 PDF

作者: Zihan Ding, Chi Jin, Difan Liu, Haitian Zheng, Krishna Kumar Singh, Qiang Zhang, Yan Kang, Zhe Lin, Yuchen Liu

分类: cs.CV

发布日期: 2024-12-20


💡 一句话要点

提出基于蒸馏和潜在奖励优化的DOLLAR框架,实现少步高质量视频生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频生成 扩散模型 蒸馏学习 少步生成 奖励模型

📋 核心要点

  1. 扩散模型视频生成计算成本高昂,减少采样步骤会降低质量和多样性。
  2. 提出结合变分分数蒸馏和一致性蒸馏的DOLLAR框架,实现高质量少步视频生成。
  3. 实验表明,该方法在少步生成10秒视频上达到SOTA,一步蒸馏加速高达278.6倍。

📝 摘要(中文)

扩散概率模型在视频生成方面取得了显著进展,但其计算效率受到所需采样步骤数量的限制。减少采样步骤通常会牺牲视频质量或生成多样性。本文提出了一种蒸馏方法,该方法结合了变分分数蒸馏和一致性蒸馏,以实现少步视频生成,同时保持高质量和多样性。此外,还提出了一种潜在奖励模型微调方法,以根据任何指定的奖励指标进一步提高视频生成性能。该方法减少了内存使用,并且不需要奖励是可微的。我们的方法在10秒视频(128帧,12 FPS)的少步生成方面表现出最先进的性能。蒸馏后的学生模型在VBench上获得了82.57分,超过了教师模型以及基线模型Gen-3、T2V-Turbo和Kling。一步蒸馏将教师模型的扩散采样加速高达278.6倍,从而实现接近实时的生成。人工评估进一步验证了我们的4步学生模型相比使用50步DDIM采样的教师模型的卓越性能。

🔬 方法详解

问题定义:视频生成领域,基于扩散模型的方案需要大量的采样步骤,导致计算效率低下。如何在保证视频质量和多样性的前提下,显著减少采样步骤,是本文要解决的核心问题。现有方法在减少采样步骤时,往往会牺牲视频的质量或生成的多样性,无法兼顾效率与效果。

核心思路:本文的核心思路是通过蒸馏技术,将教师模型的能力转移到学生模型,使得学生模型能够在更少的采样步骤下,生成高质量的视频。同时,引入潜在奖励模型微调,进一步提升视频生成性能,并允许使用不可微的奖励函数。

技术框架:DOLLAR框架主要包含两个阶段:首先,使用变分分数蒸馏和一致性蒸馏相结合的方法,训练一个少步学生模型。然后,使用潜在奖励模型对学生模型进行微调,以优化特定奖励指标。整体流程是先通过蒸馏获得一个初步的快速生成模型,再通过奖励模型进行精细化调整。

关键创新:该方法的主要创新点在于结合了变分分数蒸馏和一致性蒸馏,并提出了潜在奖励模型微调方法。传统的蒸馏方法可能无法充分保留教师模型的能力,而结合两种蒸馏方法可以更好地平衡质量和多样性。潜在奖励模型微调则允许使用任意奖励指标,无需可微性要求,扩展了优化空间。

关键设计:在蒸馏过程中,使用了变分分数匹配损失和一致性损失来训练学生模型。潜在奖励模型采用对抗训练的方式,判别器用于区分生成的视频和真实视频,生成器(学生模型)则试图生成能够欺骗判别器的视频。奖励模型的设计允许使用任意的视频质量或多样性指标,例如FID、CLIP score等。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在少步视频生成方面取得了SOTA性能,在VBench上获得了82.57分,超过了教师模型以及Gen-3、T2V-Turbo和Kling等基线模型。一步蒸馏将教师模型的扩散采样加速高达278.6倍,实现了接近实时的生成。人工评估也表明,4步学生模型优于50步DDIM采样的教师模型。

🎯 应用场景

该研究成果可应用于视频内容创作、游戏开发、虚拟现实等领域。通过快速生成高质量视频,可以降低视频制作成本,提高创作效率。例如,在游戏开发中,可以快速生成游戏场景和角色动画;在虚拟现实中,可以生成逼真的虚拟环境。该技术还有潜力应用于视频编辑、视频修复等领域。

📄 摘要(原文)

Diffusion probabilistic models have shown significant progress in video generation; however, their computational efficiency is limited by the large number of sampling steps required. Reducing sampling steps often compromises video quality or generation diversity. In this work, we introduce a distillation method that combines variational score distillation and consistency distillation to achieve few-step video generation, maintaining both high quality and diversity. We also propose a latent reward model fine-tuning approach to further enhance video generation performance according to any specified reward metric. This approach reduces memory usage and does not require the reward to be differentiable. Our method demonstrates state-of-the-art performance in few-step generation for 10-second videos (128 frames at 12 FPS). The distilled student model achieves a score of 82.57 on VBench, surpassing the teacher model as well as baseline models Gen-3, T2V-Turbo, and Kling. One-step distillation accelerates the teacher model's diffusion sampling by up to 278.6 times, enabling near real-time generation. Human evaluations further validate the superior performance of our 4-step student models compared to teacher model using 50-step DDIM sampling.