Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation
作者: Mingyuan Zhou, Huangjie Zheng, Zhendong Wang, Mingzhang Yin, Hai Huang
分类: cs.LG, cs.AI, cs.CV, stat.ML
发布日期: 2024-04-05 (更新: 2024-05-24)
备注: ICML 2024, PyTorch implementation: https://github.com/mingyuanzhou/SiD
🔗 代码/项目: GITHUB
💡 一句话要点
提出Score Identity Distillation以实现快速生成预训练扩散模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 蒸馏训练 生成模型 图像生成 无数据学习
📋 核心要点
- 现有的扩散模型蒸馏方法在生成速度和质量上存在显著的瓶颈,尤其是在需要真实数据的情况下。
- 论文提出的Score Identity Distillation (SiD)方法通过创新的损失机制,利用生成器自身合成的图像进行训练,从而实现快速蒸馏。
- 在多个基准数据集上,SiD算法展示了高效的迭代性能,显著提升了生成质量,超越了现有的蒸馏方法。
📝 摘要(中文)
我们提出了一种创新的数据无关方法——Score Identity Distillation (SiD),该方法将预训练扩散模型的生成能力蒸馏为单步生成器。SiD在蒸馏过程中实现了Fréchet inception distance (FID)的指数级快速降低,并且在FID性能上接近甚至超过了原始教师扩散模型。通过将前向扩散过程重新表述为半隐式分布,我们利用三种与得分相关的恒等式创建了一种创新的损失机制。该机制通过使用生成器自身合成的图像进行训练,快速降低FID,消除了对真实数据或基于反向扩散生成的需求,显著缩短了生成时间。在四个基准数据集上的评估中,SiD算法在蒸馏过程中表现出高迭代效率,超越了现有的蒸馏方法,无论是单步还是少步、无数据还是依赖训练数据,生成质量均有所提升。这一成就不仅重新定义了扩散蒸馏的效率和有效性基准,也对扩散生成的更广泛领域产生了影响。
🔬 方法详解
问题定义:现有的扩散模型蒸馏方法通常依赖于真实数据或复杂的反向扩散过程,导致生成速度慢且效率低下。
核心思路:论文提出的SiD方法通过将前向扩散过程视为半隐式分布,利用生成器自身合成的图像进行训练,从而实现快速蒸馏和生成。
技术框架:SiD的整体架构包括三个主要模块:前向扩散过程的重构、得分相关恒等式的应用以及创新的损失机制。通过这些模块,生成器能够在没有真实数据的情况下进行高效训练。
关键创新:SiD的核心创新在于其损失机制,利用三种得分相关的恒等式来快速降低FID,这一方法与传统依赖真实数据的蒸馏方法本质上不同。
关键设计:在实现中,SiD采用了特定的损失函数设计,确保生成器能够有效利用自身生成的图像进行训练,且在参数设置上进行了优化,以提升生成质量和效率。
🖼️ 关键图片
📊 实验亮点
在实验中,SiD算法在四个基准数据集上表现出色,FID值显著降低,且生成质量超过了现有的蒸馏方法,展示了高达数倍的效率提升,特别是在数据无关的场景下。
🎯 应用场景
该研究的潜在应用领域包括图像生成、视频生成以及其他需要高效生成模型的任务。SiD方法的高效性和无数据需求使其在资源受限的环境中具有实际价值,未来可能推动更多基于扩散的生成技术的发展。
📄 摘要(原文)
We introduce Score identity Distillation (SiD), an innovative data-free method that distills the generative capabilities of pretrained diffusion models into a single-step generator. SiD not only facilitates an exponentially fast reduction in Fréchet inception distance (FID) during distillation but also approaches or even exceeds the FID performance of the original teacher diffusion models. By reformulating forward diffusion processes as semi-implicit distributions, we leverage three score-related identities to create an innovative loss mechanism. This mechanism achieves rapid FID reduction by training the generator using its own synthesized images, eliminating the need for real data or reverse-diffusion-based generation, all accomplished within significantly shortened generation time. Upon evaluation across four benchmark datasets, the SiD algorithm demonstrates high iteration efficiency during distillation and surpasses competing distillation approaches, whether they are one-step or few-step, data-free, or dependent on training data, in terms of generation quality. This achievement not only redefines the benchmarks for efficiency and effectiveness in diffusion distillation but also in the broader field of diffusion-based generation. The PyTorch implementation is available at https://github.com/mingyuanzhou/SiD