SGMD: Score Gradient Matching Distillation for Few-Step Video Diffusion Distillation
作者: Zhuguanyu Wu, Ruihao Gong, Yang Yong, Yushi Huang, Xiangyu Fan, Lei Yang, Dahua Lin, Xianglong Liu
分类: cs.CV, cs.LG
发布日期: 2026-05-28
备注: ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出SGMD:面向少步视频扩散蒸馏的分数梯度匹配蒸馏方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频扩散模型 蒸馏训练 分数匹配 运动动态 少步推理
📋 核心要点
- 现有DMD方法在视频扩散模型蒸馏中,需要频繁更新生成器,导致训练成本高昂,且反向KL散度匹配可能损失运动动态。
- SGMD通过直接优化伪分数逼近教师模型,并利用教师模型停止梯度Fisher信息作为稳定目标,实现高效的分布匹配。
- 实验表明,SGMD相比DMD2,训练速度提升约3倍,显著改善了运动动态,同时保持时间一致性和可比的视觉质量。
📝 摘要(中文)
分布匹配蒸馏(DMD)是加速少步视频扩散模型推理的常用范式。然而,DMD风格的视频蒸馏面临两个相互关联的挑战:伪分数必须跟踪不断演变的生成器,导致频繁更新时训练成本高昂;而反向KL风格的匹配对于保持强大的运动动态可能是mode-seeking和保守的。为了解决这些问题,我们提出了分数梯度匹配蒸馏(SGMD)。SGMD采用伪分数视角,直接优化伪分数以逼近教师模型,同时使用教师模型停止梯度Fisher信息作为稳定的分布匹配目标。我们提供了一个梯度分析,在理想跟踪下证明了这种目标选择的合理性。在此基础上,SGMD引入了一对对偶势:用于外循环校正的负残差(NR)和用于内循环跟踪的残差收缩(RC)。实验结果表明,与DMD2相比,SGMD实现了约3倍的训练速度提升,并显著提高了4步蒸馏模型的运动动态,同时保持了时间一致性。一项人工研究证实,SGMD在运动质量和整体偏好方面更受欢迎,而视觉质量和文本对齐保持相当。代码可在https://github.com/ModelTC/LightX2V获取。
🔬 方法详解
问题定义:论文旨在解决少步视频扩散模型蒸馏中,现有Distribution Matching Distillation (DMD)方法训练成本高、运动动态保持不足的问题。DMD方法需要频繁更新生成器以匹配教师模型,导致训练效率低下。同时,反向KL散度匹配可能过于保守,无法有效保留视频中的运动信息。
核心思路:论文的核心思路是采用Score Gradient Matching,即直接优化学生模型的伪分数(fake score)以逼近教师模型的伪分数。通过这种方式,避免了直接匹配生成器,从而降低了训练成本。同时,利用教师模型停止梯度Fisher信息作为分布匹配目标,以保证训练的稳定性。
技术框架:SGMD的整体框架包括一个学生模型和一个教师模型。学生模型的目标是生成与教师模型相似的视频。训练过程中,SGMD首先计算教师模型的伪分数,然后优化学生模型的伪分数以逼近教师模型的伪分数。为了提高训练的稳定性和效率,SGMD引入了两个关键的对偶势:负残差(NR)用于外循环校正,残差收缩(RC)用于内循环跟踪。
关键创新:SGMD的关键创新在于使用Score Gradient Matching来替代传统的Distribution Matching。通过直接优化伪分数,避免了对生成器的频繁更新,从而显著提高了训练效率。此外,引入的对偶势(NR和RC)进一步提高了训练的稳定性和运动动态的保持能力。
关键设计:SGMD的关键设计包括:1) 使用教师模型停止梯度Fisher信息作为分布匹配目标,以保证训练的稳定性;2) 引入负残差(NR)用于外循环校正,以纠正学生模型与教师模型之间的偏差;3) 引入残差收缩(RC)用于内循环跟踪,以提高学生模型对教师模型运动动态的跟踪能力。具体的损失函数设计和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SGMD相比DMD2,训练速度提升约3倍,同时显著提高了4步蒸馏模型的运动动态。人工评估结果显示,SGMD在运动质量和整体偏好方面优于DMD2,而视觉质量和文本对齐保持相当。这些结果表明,SGMD是一种高效且有效的视频扩散模型蒸馏方法。
🎯 应用场景
SGMD可应用于各种需要快速视频生成的场景,例如视频编辑、游戏开发、虚拟现实和增强现实等。通过减少推理步骤,SGMD可以显著提高视频生成的效率,从而加速这些应用的开发和部署。此外,SGMD在保持运动动态方面的优势使其在需要高质量运动表达的场景中具有独特的价值。
📄 摘要(原文)
Distribution Matching Distillation (DMD) is a widely used paradigm for accelerating inference in few-step video diffusion models. However, DMD-style video distillation faces two coupled challenges: the fake score must track a continuously evolving generator, making training costly when frequent updates are required, while reverse-KL-style matching can be mode-seeking and conservative for preserving strong motion dynamics. To address these issues, we propose \textbf{Score Gradient Matching Distillation (SGMD)}. SGMD adopts a fake-score perspective by directly optimizing the fake score toward the teacher, while using teacher stop-gradient Fisher as a stable distribution-matching objective. We provide a gradient analysis that motivates this objective choice under ideal tracking. Building on this, SGMD introduces a pair of dual potentials: negative-residual (NR) for outer-loop correction and residual-contraction (RC) for inner-loop tracking. Empirically, compared to DMD2, SGMD achieves an approximately $\sim 3\times$ training speedup and substantially improves motion dynamics for 4-step distilled models while preserving temporal consistency. A human study confirms that SGMD is preferred in motion quality and overall preference, while visual quality and text alignment remain comparable. Code is available at https://github.com/ModelTC/LightX2V.