History-Guided Video Diffusion
作者: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann
分类: cs.LG, cs.CV
发布日期: 2025-02-10 (更新: 2025-07-24)
备注: ICML 2025. Project website: https://boyuan.space/history-guidance
💡 一句话要点
提出历史引导视频扩散方法,解决变长历史帧条件下的视频生成问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 视频扩散模型 条件视频生成 变长历史建模 Transformer 无分类器引导
📋 核心要点
- 现有视频扩散模型难以处理变长历史帧的条件生成,限制了其在复杂场景中的应用。
- 论文提出Diffusion Forcing Transformer (DFoT)架构和历史引导方法,以支持灵活数量的历史帧条件作用。
- 实验表明,所提出的方法显著提高了视频生成质量、时间一致性和运动动力学,并能处理长视频生成。
📝 摘要(中文)
无分类器引导(CFG)是提升扩散模型中条件生成效果的关键技术,它能在提高样本质量的同时实现更精确的控制。将此技术扩展到视频扩散是很自然的想法,视频扩散可以根据可变数量的上下文帧(统称为历史)生成视频。然而,我们发现使用变长历史进行引导存在两个主要挑战:一是架构仅支持固定大小的条件输入,二是CFG风格的历史dropout效果不佳。为了解决这些问题,我们提出了扩散强制Transformer(DFoT),这是一种视频扩散架构和理论上合理的训练目标,可以联合实现对灵活数量的历史帧的条件作用。然后,我们引入了历史引导,这是一系列由DFoT独特支持的引导方法。我们表明,其最简单的形式,即vanilla历史引导,已经显著提高了视频生成质量和时间一致性。一种更先进的方法,即跨时间和频率的历史引导,进一步增强了运动动力学,实现了对分布外历史的组合泛化,并且可以稳定地展开极长的视频。
🔬 方法详解
问题定义:现有视频扩散模型在处理变长历史帧作为条件输入时面临挑战。一方面,许多架构设计仅支持固定长度的条件输入,无法灵活适应不同长度的历史信息。另一方面,直接应用无分类器引导(CFG)风格的历史dropout策略会导致性能下降,无法有效利用历史信息来提升生成质量。这限制了视频扩散模型在需要依赖长期上下文信息的场景中的应用,例如需要根据过去的行为预测未来动作的场景。
核心思路:论文的核心思路是设计一种新的视频扩散架构,使其能够灵活地处理变长历史帧的条件输入,并提出一种有效的历史引导方法,充分利用历史信息来提升视频生成质量。DFoT架构通过将历史帧信息编码到Transformer的注意力机制中,实现了对变长历史的建模。历史引导方法则通过调整扩散过程中的噪声预测,使得生成的视频更加符合历史信息的约束。
技术框架:整体框架基于扩散模型,包含训练和推理两个阶段。在训练阶段,DFoT学习从噪声中生成视频,并根据历史帧进行条件约束。在推理阶段,通过迭代去噪过程,从随机噪声生成视频,并使用历史引导方法来调整生成过程,使其更加符合历史信息的约束。主要模块包括:1) 历史编码器:将历史帧编码成特征向量;2) DFoT:基于Transformer的扩散模型,将历史特征向量融入到去噪过程中;3) 历史引导模块:根据历史信息调整噪声预测。
关键创新:论文的关键创新在于DFoT架构和历史引导方法。DFoT架构通过将历史帧信息编码到Transformer的注意力机制中,实现了对变长历史的建模,克服了传统架构对固定长度输入的限制。历史引导方法则通过调整扩散过程中的噪声预测,使得生成的视频更加符合历史信息的约束,提高了生成视频的时间一致性和运动动力学。
关键设计:DFoT架构的关键设计在于其Transformer结构,其中历史帧信息通过交叉注意力机制融入到去噪过程中。历史引导方法的关键设计在于如何根据历史信息调整噪声预测。论文提出了两种历史引导方法:vanilla历史引导和跨时间和频率的历史引导。vanilla历史引导直接根据历史帧的特征向量调整噪声预测。跨时间和频率的历史引导则进一步考虑了历史帧在时间和频率上的变化,从而更好地捕捉运动动力学。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的DFoT架构和历史引导方法显著提高了视频生成质量和时间一致性。与基线方法相比,vanilla历史引导在视频生成质量和时间一致性方面取得了显著提升。更先进的跨时间和频率的历史引导进一步增强了运动动力学,实现了对分布外历史的组合泛化,并且可以稳定地展开极长的视频。项目网站提供了更多实验细节和可视化结果。
🎯 应用场景
该研究成果可应用于视频生成、视频预测、视频编辑等领域。例如,可以根据用户提供的历史视频片段生成后续视频内容,实现智能视频续写;也可以根据历史交通数据预测未来交通状况,辅助智能交通管理;还可以应用于游戏开发,生成更加逼真的游戏场景和角色动画。该研究的潜在价值在于提升视频生成质量和可控性,为相关应用带来更广阔的发展空间。
📄 摘要(原文)
Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Project website: https://boyuan.space/history-guidance