FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

📄 arXiv: 2410.19355v2 📥 PDF

作者: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

分类: cs.CV

发布日期: 2024-10-25 (更新: 2025-03-12)


💡 一句话要点

FasterCache:一种高质量、免训练的视频扩散模型加速策略

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视频扩散模型 模型加速 免训练 特征重用 无分类器引导

📋 核心要点

  1. 现有基于缓存的视频扩散模型加速方法,直接重用相邻帧特征,导致视频质量下降,无法保留视频中的细微变化。
  2. FasterCache通过动态特征重用策略,在保留特征区分性的同时,维持时间连续性,从而避免了质量下降的问题。
  3. FasterCache利用CFG-Cache优化条件和无条件特征的重用,进一步提升推理速度,实验表明其在速度和质量上均优于现有方法。

📝 摘要(中文)

本文提出FasterCache,一种新颖的免训练策略,旨在加速视频扩散模型的推理过程,同时保持高质量的生成效果。通过分析现有的基于缓存的方法,我们发现直接重用相邻步骤的特征会因丢失细微变化而降低视频质量。我们进一步开创性地研究了无分类器引导(CFG)的加速潜力,并揭示了同一时间步内条件特征和无条件特征之间存在显著的冗余。基于这些观察,我们引入FasterCache来显著加速基于扩散的视频生成。我们的主要贡献包括一种动态特征重用策略,该策略既保留了特征的区分性又保持了时间连续性,以及CFG-Cache,它优化了条件和无条件输出的重用,以进一步提高推理速度而不影响视频质量。我们在最新的视频扩散模型上对FasterCache进行了实证评估。实验结果表明,FasterCache可以显著加速视频生成(例如,在Vchitect-2.0上加速1.67倍),同时保持与基线相当的视频质量,并且在推理速度和视频质量方面始终优于现有方法。

🔬 方法详解

问题定义:视频扩散模型计算量巨大,推理速度慢。现有基于缓存的加速方法通过重用相邻时间步的特征来减少计算,但直接重用会导致视频质量下降,因为视频中的细微变化会被忽略。因此,如何在加速的同时保持视频质量是一个关键问题。

核心思路:FasterCache的核心思路是避免直接重用相邻时间步的特征,而是采用一种动态的特征重用策略,该策略能够根据特征的变化程度来决定是否重用。此外,FasterCache还利用了无分类器引导(CFG)中条件和无条件特征之间的冗余性,通过CFG-Cache来进一步加速推理。

技术框架:FasterCache主要包含两个模块:动态特征重用模块和CFG-Cache模块。动态特征重用模块根据当前时间步的特征与缓存中的特征的相似度,动态地决定是否重用缓存中的特征。CFG-Cache模块则缓存条件和无条件特征,并根据一定的策略来重用这些特征,从而减少计算量。整体流程是,首先使用动态特征重用模块加速扩散过程,然后使用CFG-Cache模块进一步加速。

关键创新:FasterCache的关键创新在于动态特征重用策略和CFG-Cache。动态特征重用策略能够自适应地选择是否重用缓存中的特征,从而在加速的同时保持视频质量。CFG-Cache则通过优化条件和无条件特征的重用,进一步提高了推理速度。与现有方法相比,FasterCache能够更好地平衡推理速度和视频质量。

关键设计:动态特征重用策略的关键在于如何衡量当前时间步的特征与缓存中的特征的相似度。论文中使用了余弦相似度来衡量特征的相似度,并设置了一个阈值来决定是否重用缓存中的特征。CFG-Cache的关键在于如何选择重用哪些条件和无条件特征。论文中采用了一种基于注意力机制的方法来选择重用哪些特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FasterCache在Vchitect-2.0上实现了1.67倍的加速,同时保持了与基线相当的视频质量。实验结果表明,FasterCache在推理速度和视频质量方面均优于现有方法。例如,在相同的视频质量下,FasterCache比其他基于缓存的方法快得多。这些结果表明FasterCache是一种有效的视频扩散模型加速策略。

🎯 应用场景

FasterCache可应用于各种需要快速生成高质量视频的场景,例如视频编辑、游戏开发、虚拟现实、电影制作等。该方法能够显著降低视频生成的计算成本,提高生产效率,并促进视频扩散模型在实际应用中的普及。未来,FasterCache有望成为视频生成领域的重要加速技术。

📄 摘要(原文)

In this paper, we present \textbf{\textit{FasterCache}}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that \textit{directly reusing adjacent-step features degrades video quality due to the loss of subtle variations}. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67$\times$ speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.