Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
作者: Yanzuo Lu, Yuxi Ren, Xin Xia, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Andy J. Ma, Xiaohua Xie, Jian-Huang Lai
分类: cs.CV
发布日期: 2025-07-24
备注: Accepted by ICCV 2025 (Highlight)
💡 一句话要点
提出DMDX,通过对抗分布匹配蒸馏提升扩散模型图像和视频合成效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 蒸馏训练 对抗学习 图像生成 视频生成 分布匹配 单步生成
📋 核心要点
- 现有DMD方法依赖反向KL散度,易导致模式崩溃,影响生成质量。
- 提出ADM框架,利用扩散判别器对抗训练,对齐真实和伪分数估计器的潜在预测。
- DMDX结合对抗预训练和ADM微调,在SDXL上超越DMD2,并在多个数据集上取得新基准。
📝 摘要(中文)
分布匹配蒸馏(DMD)是一种有前景的分数蒸馏技术,它将预训练的教师扩散模型压缩为高效的单步或多步学生生成器。然而,它对反向KL散度最小化的依赖可能在某些应用中导致模式崩溃(或模式寻求)。为了规避这个固有的缺点,我们提出了对抗分布匹配(ADM),这是一种新颖的框架,它利用基于扩散的判别器来对齐真实和伪分数估计器之间的潜在预测,从而以对抗的方式进行分数蒸馏。在极具挑战性的单步蒸馏的背景下,我们通过在潜在空间和像素空间中使用混合判别器进行对抗蒸馏,进一步改进了预训练的生成器。与DMD2预训练中使用的均方误差不同,我们的方法结合了从教师模型收集的ODE对上的分布损失,从而为下一阶段的分数蒸馏微调提供了更好的初始化。通过将对抗蒸馏预训练与ADM微调结合到一个名为DMDX的统一流程中,我们提出的方法在SDXL上实现了优于DMD2的单步性能,同时消耗更少的GPU时间。将多步ADM蒸馏应用于SD3-Medium、SD3.5-Large和CogVideoX的额外实验为高效的图像和视频合成设定了新的基准。
🔬 方法详解
问题定义:论文旨在解决扩散模型蒸馏过程中,由于依赖反向KL散度最小化而导致的模式崩溃问题。现有方法,如DMD2,在单步蒸馏中表现不佳,且训练不稳定,需要大量的GPU资源。
核心思路:核心思路是通过对抗训练的方式,使用扩散模型作为判别器,来对齐真实数据和生成数据的分布。这种对抗训练能够避免反向KL散度带来的模式崩溃问题,并提高生成模型的质量和稳定性。
技术框架:DMDX框架包含两个主要阶段:对抗蒸馏预训练和ADM微调。在预训练阶段,使用混合判别器(latent space和pixel space)进行对抗训练,优化生成器。在微调阶段,使用ADM方法,利用扩散判别器对齐真实和伪分数估计器之间的潜在预测。整个流程旨在提升单步蒸馏的性能。
关键创新:关键创新在于使用对抗训练来替代传统的反向KL散度最小化,从而避免模式崩溃。此外,使用扩散模型作为判别器,能够更有效地捕捉数据分布的复杂性。混合判别器的使用也提升了预训练阶段的效果。
关键设计:在预训练阶段,使用了基于ODE对的分布损失,替代了DMD2中的均方误差,从而为后续的微调提供了更好的初始化。判别器的具体网络结构和训练方式未知,但强调了其基于扩散模型的设计。ADM微调阶段的具体损失函数和优化策略也未知。
🖼️ 关键图片
📊 实验亮点
DMDX在SDXL数据集上实现了优于DMD2的单步生成性能,同时减少了GPU使用时间。此外,该方法在SD3-Medium、SD3.5-Large和CogVideoX等数据集上进行了多步蒸馏实验,并取得了新的性能基准,表明其在图像和视频合成方面的有效性。
🎯 应用场景
该研究成果可广泛应用于图像和视频生成领域,例如快速图像生成、视频编辑、内容创作等。通过高效的蒸馏技术,可以降低扩散模型的计算成本,使其能够在资源受限的设备上运行,从而推动AI生成内容在移动设备和边缘计算上的应用。
📄 摘要(原文)
Distribution Matching Distillation (DMD) is a promising score distillation technique that compresses pre-trained teacher diffusion models into efficient one-step or multi-step student generators. Nevertheless, its reliance on the reverse Kullback-Leibler (KL) divergence minimization potentially induces mode collapse (or mode-seeking) in certain applications. To circumvent this inherent drawback, we propose Adversarial Distribution Matching (ADM), a novel framework that leverages diffusion-based discriminators to align the latent predictions between real and fake score estimators for score distillation in an adversarial manner. In the context of extremely challenging one-step distillation, we further improve the pre-trained generator by adversarial distillation with hybrid discriminators in both latent and pixel spaces. Different from the mean squared error used in DMD2 pre-training, our method incorporates the distributional loss on ODE pairs collected from the teacher model, and thus providing a better initialization for score distillation fine-tuning in the next stage. By combining the adversarial distillation pre-training with ADM fine-tuning into a unified pipeline termed DMDX, our proposed method achieves superior one-step performance on SDXL compared to DMD2 while consuming less GPU time. Additional experiments that apply multi-step ADM distillation on SD3-Medium, SD3.5-Large, and CogVideoX set a new benchmark towards efficient image and video synthesis.