Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation
作者: Yuyang You, Yongzhi Li, Jiahui Li, Yadong Mu, Quan Chen, Peng Jiang
分类: cs.CV, cs.AI
发布日期: 2026-03-23
💡 一句话要点
提出自适应视频蒸馏框架,解决少步生成中过饱和与时间塌陷问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 视频生成 扩散模型 模型蒸馏 自适应学习 时间一致性 少步生成 视频编辑 人工智能
📋 核心要点
- 现有视频生成模型蒸馏方法直接采用图像蒸馏技术,易导致过饱和、时间不一致和模式崩溃等问题。
- 提出自适应视频蒸馏框架,包含自适应回归损失、时间正则化损失和推理时帧插值策略。
- 实验表明,该方法在少步视频合成中显著提高了感知保真度和运动真实感,优于现有基线。
📝 摘要(中文)
视频生成已成为生成式AI领域的核心任务。然而,视频合成的巨大计算成本使得模型蒸馏成为高效部署的关键技术。尽管其重要性,但专门为视频扩散模型设计的方法却很少。现有方法通常直接采用图像蒸馏技术,这经常导致过饱和、时间不一致和模式崩溃等伪影。为了解决这些挑战,我们提出了一种专门为视频扩散模型量身定制的新型蒸馏框架。其核心创新包括:(1)一种自适应回归损失,动态调整空间监督权重,以防止由过度分布偏移引起的伪影;(2)一种时间正则化损失,以对抗时间塌陷,促进平滑且物理上合理的采样轨迹;(3)一种推理时帧插值策略,可减少采样开销,同时保持感知质量。在VBench和VBench2基准上的大量实验和消融研究表明,我们的方法实现了稳定的少步视频合成,显著提高了感知保真度和运动真实感。它在多个指标上始终优于现有的蒸馏基线。
🔬 方法详解
问题定义:论文旨在解决视频扩散模型蒸馏过程中出现的过饱和、时间不一致和模式崩溃等问题。现有图像蒸馏方法直接应用于视频生成时,忽略了视频的时序特性,导致生成视频质量下降,无法有效利用计算资源进行高效的视频生成。
核心思路:论文的核心思路是针对视频扩散模型的特点,设计专门的蒸馏框架,从空间和时间两个维度进行优化。通过自适应调整空间监督权重,防止过饱和伪影;通过时间正则化损失,保证生成视频的时序一致性;通过帧插值策略,减少采样开销,提高生成效率。
技术框架:该蒸馏框架主要包含三个核心模块:自适应回归损失模块、时间正则化损失模块和推理时帧插值模块。自适应回归损失模块动态调整空间监督权重,减少过饱和伪影。时间正则化损失模块通过约束相邻帧之间的差异,保证时序一致性。推理时帧插值模块在推理阶段通过插值生成中间帧,减少采样步骤,提高生成效率。
关键创新:论文的关键创新在于针对视频扩散模型,提出了自适应回归损失和时间正则化损失,解决了传统图像蒸馏方法在视频生成中存在的问题。此外,推理时帧插值策略进一步提高了生成效率,在保证视频质量的同时,降低了计算成本。
关键设计:自适应回归损失通过动态调整空间监督权重,平衡不同区域的监督强度,避免过度拟合。时间正则化损失采用相邻帧之间的L1或L2距离作为约束,保证时序一致性。推理时帧插值策略采用线性插值或更复杂的插值方法,生成中间帧,减少采样步骤。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在VBench和VBench2基准测试中,显著提高了视频生成的感知保真度和运动真实感,优于现有的蒸馏基线。具体而言,在少步生成设置下,该方法能够生成更清晰、更流畅的视频,有效避免了过饱和、时间不一致和模式崩溃等问题。量化指标也显示,该方法在多个指标上都取得了显著提升。
🎯 应用场景
该研究成果可应用于视频编辑、游戏开发、电影制作等领域,实现高质量、高效率的视频生成。通过模型蒸馏,可以将大型视频生成模型部署到资源受限的设备上,例如移动设备和嵌入式系统,从而拓展视频生成技术的应用范围。此外,该方法还可以用于生成各种类型的视频内容,例如动画、特效和虚拟现实内容。
📄 摘要(原文)
Video generation has recently emerged as a central task in the field of generative AI. However, the substantial computational cost inherent in video synthesis makes model distillation a critical technique for efficient deployment. Despite its significance, there is a scarcity of methods specifically designed for video diffusion models. Prevailing approaches often directly adapt image distillation techniques, which frequently lead to artifacts such as oversaturation, temporal inconsistency, and mode collapse. To address these challenges, we propose a novel distillation framework tailored specifically for video diffusion models. Its core innovations include: (1) an adaptive regression loss that dynamically adjusts spatial supervision weights to prevent artifacts arising from excessive distribution shifts; (2) a temporal regularization loss to counteract temporal collapse, promoting smooth and physically plausible sampling trajectories; and (3) an inference-time frame interpolation strategy that reduces sampling overhead while preserving perceptual quality. Extensive experiments and ablation studies on the VBench and VBench2 benchmarks demonstrate that our method achieves stable few-step video synthesis, significantly enhancing perceptual fidelity and motion realism. It consistently outperforms existing distillation baselines across multiple metrics.