Streaming Autoregressive Video Generation via Diagonal Distillation
作者: Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu
分类: cs.CV
发布日期: 2026-03-10
💡 一句话要点
提出对角蒸馏方法,加速自回归视频生成,实现实时流式传输。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频生成 自回归模型 扩散模型 蒸馏训练 实时流式传输
📋 核心要点
- 现有视频蒸馏方法忽略时间依赖性,导致运动连贯性差、误差累积和延迟-质量权衡。
- 提出对角蒸馏,通过不对称生成策略和利用时间信息,优化视频生成过程。
- 实验表明,该方法在保证视频质量的前提下,显著提升了生成速度,实现了实时流式传输。
📝 摘要(中文)
大型预训练扩散模型显著提升了视频生成质量,但其在实时流式传输中的应用仍然受限。自回归模型为序列帧合成提供了一个自然框架,但需要大量计算才能实现高保真度。扩散蒸馏可以将这些模型压缩为高效的少步变体,但现有的视频蒸馏方法大多采用图像特定的方法,忽略了时间依赖性。这些技术在图像生成方面表现出色,但在视频合成方面表现不佳,表现出运动连贯性降低、长序列中的误差累积以及延迟-质量的权衡。我们确定了导致这些限制的两个因素:在步长减少期间时间上下文的利用不足,以及在下一个块预测中隐式预测后续噪声水平(即,暴露偏差)。为了解决这些问题,我们提出了对角蒸馏,它与现有方法正交,并且更好地利用了视频块和去噪步骤中的时间信息。我们方法的核心是不对称生成策略:早期步骤更多,后期步骤更少。这种设计允许后面的块从经过彻底处理的早期块继承丰富的表观信息,同时使用部分去噪的块作为后续合成的条件输入。通过将块生成期间后续噪声水平的隐式预测与实际推理条件对齐,我们的方法减轻了误差传播并减少了长程序列中的过饱和。我们进一步结合了隐式光流建模,以在严格的步长约束下保持运动质量。我们的方法在 2.61 秒内生成一个 5 秒的视频(高达 31 FPS),与未蒸馏的模型相比,实现了 277.3 倍的加速。
🔬 方法详解
问题定义:现有基于扩散模型的视频生成方法计算量大,难以实现实时流式传输。现有的视频蒸馏方法通常是图像特定的,忽略了视频帧之间的时间依赖性,导致生成的视频在运动连贯性、误差累积和延迟-质量平衡方面存在问题。
核心思路:论文的核心思路是通过对角蒸馏,更好地利用视频帧之间的时间信息,并采用不对称的生成策略,即早期帧使用更多的去噪步骤,后期帧使用更少的去噪步骤。这样可以使后面的帧继承前面帧的信息,并减少误差累积。
技术框架:整体框架包含以下几个关键部分:1) 不对称生成策略:早期块进行更多步的去噪,后期块进行更少步的去噪。2) 利用部分去噪的块作为后续合成的条件输入。3) 隐式光流建模,用于保持运动质量。
关键创新:该方法的主要创新在于:1) 提出了对角蒸馏,更好地利用了视频帧之间的时间信息。2) 采用了不对称的生成策略,平衡了生成质量和速度。3) 通过将块生成期间后续噪声水平的隐式预测与实际推理条件对齐,减轻了误差传播。
关键设计:不对称生成策略是关键设计之一,具体而言,早期帧分配更多的去噪步骤,从而提供更清晰的表观信息,而后续帧则可以利用这些信息,减少自身的计算负担。此外,隐式光流建模通过学习帧之间的运动信息,有助于在减少去噪步骤的同时保持运动的连贯性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法可以在 2.61 秒内生成一个 5 秒的视频,实现了高达 31 FPS 的帧率,与未蒸馏的模型相比,速度提升了 277.3 倍。这表明该方法在保证视频质量的前提下,显著提升了视频生成速度,为实时视频生成提供了可能。
🎯 应用场景
该研究成果可应用于实时视频生成、视频会议、游戏直播、虚拟现实等领域。通过加速视频生成过程,可以降低延迟,提升用户体验。此外,该方法还可以用于视频编辑、视频修复等任务,具有广泛的应用前景。
📄 摘要(原文)
Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.