AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation
作者: Yuchao Gu, Guian Fang, Yuxin Jiang, Weijia Mao, Song Han, Han Cai, Mike Zheng Shou
分类: cs.CV, cs.AI
发布日期: 2026-05-13
备注: Project page at https://nvlabs.github.io/AnyFlow/
💡 一句话要点
AnyFlow:基于流图蒸馏的任意步数视频扩散模型,解决一致性蒸馏模型在多步采样时性能下降的问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 扩散模型 蒸馏训练 流图 任意步数 ODE 视频编辑
📋 核心要点
- 一致性蒸馏在少步视频生成中表现出色,但增加采样步数会导致性能下降,限制了其在任意步数视频扩散中的应用。
- AnyFlow通过优化完整的ODE采样轨迹,将蒸馏目标从端点一致性映射转移到流图转换学习,从而实现任意步数的视频扩散。
- AnyFlow引入流图反向模拟,将完整的Euler展开分解为快捷流图转换,实现高效的在线蒸馏,并减少测试时误差。
📝 摘要(中文)
本文提出AnyFlow,一种基于流图的任意步数视频扩散蒸馏框架。现有基于一致性蒸馏的少步视频生成方法,在测试时增加采样步数会导致性能下降,这是因为一致性蒸馏将原始概率流ODE轨迹替换为一致性采样轨迹,削弱了ODE采样的理想测试时缩放行为。AnyFlow通过优化完整的ODE采样轨迹来解决此问题,将蒸馏目标从端点一致性映射(z_{t} ightarrow z_{0})转移到任意时间间隔的流图转换学习(z_{t} ightarrow z_{r})。此外,提出了流图反向模拟,将完整的Euler展开分解为快捷流图转换,实现高效的在线蒸馏,减少测试时误差(即少步采样中的离散化误差和因果生成中的暴露偏差)。在1.3B到14B参数规模的双向和因果架构上的大量实验表明,AnyFlow在少步机制中实现了与基于一致性的方法相匹配或超越的性能,同时可以随着采样步数的增加而扩展。
🔬 方法详解
问题定义:现有基于一致性蒸馏的视频扩散模型在测试阶段,当增加采样步数时,性能会显著下降。这是因为一致性蒸馏改变了原始的概率流ODE轨迹,使其不再具备良好的测试时缩放特性。因此,如何构建一个能够适应任意采样步数的视频扩散模型是一个关键问题。
核心思路:AnyFlow的核心思路是将蒸馏目标从预测最终状态(端点一致性)转变为学习任意时间间隔的流图转换。这意味着模型不再是直接预测从任意时间点到初始状态的映射,而是学习从一个时间点到另一个时间点的状态转移。通过这种方式,模型可以更好地模拟ODE的轨迹,从而在不同的采样步数下保持性能。
技术框架:AnyFlow的整体框架包括以下几个主要部分:1) 视频扩散模型:作为基础模型,负责生成视频帧。2) 流图学习模块:学习任意时间间隔的状态转移,即流图。3) 蒸馏训练模块:使用流图作为目标,对视频扩散模型进行蒸馏训练。4) 流图反向模拟:将完整的Euler展开分解为快捷流图转换,用于高效的在线蒸馏。
关键创新:AnyFlow的关键创新在于使用流图作为蒸馏目标,而不是传统的端点一致性。这种方法能够更好地保留原始ODE轨迹的特性,从而实现任意步数的视频扩散。此外,流图反向模拟技术也提高了蒸馏训练的效率。
关键设计:AnyFlow的关键设计包括:1) 流图的表示方式:使用神经网络来表示流图,并使用损失函数来约束流图的平滑性和一致性。2) 蒸馏损失函数:使用L1或L2损失函数来衡量预测的流图与真实流图之间的差异。3) 网络结构:可以使用各种现有的视频扩散模型作为基础模型,并添加流图学习模块。4) 训练策略:采用在线蒸馏的方式,即在训练过程中同时生成流图和更新模型参数。
📊 实验亮点
实验结果表明,AnyFlow在少步机制中实现了与基于一致性的方法相匹配或超越的性能,同时可以随着采样步数的增加而扩展。具体来说,在相同的采样步数下,AnyFlow的FID(Fréchet Inception Distance)指标优于或等于现有方法。更重要的是,当增加采样步数时,AnyFlow的性能能够持续提升,而基于一致性的方法则会出现性能下降。
🎯 应用场景
AnyFlow具有广泛的应用前景,包括视频生成、视频编辑、视频修复等。它可以用于生成高质量、任意长度的视频,也可以用于对现有视频进行编辑和修复。此外,AnyFlow还可以应用于虚拟现实、游戏开发等领域,为用户提供更加逼真的视觉体验。未来,AnyFlow有望成为视频内容创作的重要工具。
📄 摘要(原文)
Few-step video generation has been significantly advanced by consistency distillation. However, the performance of consistency-distilled models often degrades as more sampling steps are allocated at test time, limiting their effectiveness for any-step video diffusion. This limitation arises because consistency distillation replaces the original probability-flow ODE trajectory with a consistency-sampling trajectory, weakening the desirable test-time scaling behavior of ODE sampling. To address this limitation, we introduce AnyFlow, the first any-step video diffusion distillation framework based on flow maps. Instead of distilling a model for only a few fixed sampling steps, AnyFlow optimizes the full ODE sampling trajectory. To this end, we shift the distillation target from endpoint consistency mapping $(z_{t}\rightarrow z_{0})$ to flow-map transition learning $(z_{t}\rightarrow z_{r})$ over arbitrary time intervals. We further propose Flow Map Backward Simulation, which decomposes a full Euler rollout into shortcut flow-map transitions, enabling efficient on-policy distillation that reduces test-time errors (i.e., discretization error in few-step sampling and exposure bias in causal generation). Extensive experiments across both bidirectional and causal architectures, at scales ranging from 1.3B to 14B parameters, demonstrate that AnyFlow achieves performance matches or surpasses consistency-based counterparts in the few-step regime, while scaling with sampling step budgets.