Diffusion Models without Classifier-free Guidance
作者: Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-02-17
🔗 代码/项目: GITHUB
💡 一句话要点
提出Model-guidance训练扩散模型,无需Classifier-free guidance,提升训练和推理效率。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 条件生成 Classifier-free guidance 图像生成 Model-guidance
📋 核心要点
- 传统扩散模型依赖Classifier-free guidance (CFG)来平衡生成质量和多样性,但CFG会降低推理速度并增加计算成本。
- Model-guidance (MG)通过直接建模条件后验概率,避免了对无条件和有条件模型进行单独训练和加权,简化了训练流程。
- 实验表明,MG方法在加速训练和推理的同时,在图像生成质量上可媲美甚至超越使用CFG的扩散模型,并在ImageNet 256上取得了SOTA结果。
📝 摘要(中文)
本文提出了一种名为Model-guidance (MG) 的新目标函数,用于训练扩散模型,旨在解决并移除常用的Classifier-free guidance (CFG)。该创新方法超越了仅对数据分布进行建模的标准,转而结合了条件的后验概率。所提出的技术源于CFG的思想,简单而有效,使其成为现有模型的一个即插即用模块。我们的方法显著加速了训练过程,使推理速度提高了一倍,并实现了卓越的质量,可以媲美甚至超过使用CFG的并发扩散模型。大量的实验证明了该方法在不同模型和数据集上的有效性、效率和可扩展性。最后,我们在ImageNet 256基准上建立了最先进的性能,FID为1.34。我们的代码可在https://github.com/tzco/Diffusion-wo-CFG获取。
🔬 方法详解
问题定义:现有扩散模型通常依赖Classifier-free guidance (CFG) 来提升生成质量,但CFG需要在训练时同时训练有条件和无条件的扩散模型,并在推理时对两者的输出进行加权融合。这种方式增加了训练和推理的计算成本,降低了推理速度,并且需要手动调整guidance scale,增加了调参难度。因此,如何去除CFG,同时保持甚至提升生成质量和效率,是一个重要的研究问题。
核心思路:本文的核心思路是直接建模条件后验概率,避免显式地训练和融合无条件模型。Model-guidance (MG) 目标函数通过将条件信息直接融入到扩散模型的训练过程中,使得模型能够更好地理解和利用条件信息,从而在没有CFG的情况下也能生成高质量的图像。这种方法简化了训练流程,并提高了推理效率。
技术框架:MG方法的整体框架与标准的扩散模型训练流程类似,主要区别在于损失函数的定义。在训练阶段,模型接收输入图像和条件信息(例如类别标签),并学习预测噪声。MG损失函数鼓励模型预测的噪声与条件后验概率相一致。在推理阶段,模型通过迭代去噪过程生成图像,无需额外的无条件模型或加权融合步骤。
关键创新:MG方法最重要的创新点在于其损失函数的设计,它直接建模了条件后验概率,避免了对无条件模型的依赖。与CFG相比,MG方法不需要训练额外的无条件模型,也不需要在推理时进行加权融合,从而显著提高了训练和推理效率。此外,MG方法能够更好地利用条件信息,从而生成更高质量的图像。
关键设计:MG损失函数的具体形式未知,但可以推测其设计目标是最小化模型预测的噪声与真实噪声之间的差异,同时鼓励模型预测的噪声与条件后验概率相一致。具体的网络结构可能与现有的扩散模型类似,例如U-Net结构。关键的参数设置可能包括扩散步数、噪声调度策略等。具体的损失函数形式和网络结构细节需要在论文原文或代码中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MG方法在ImageNet 256基准上取得了最先进的性能,FID为1.34,超过了现有的使用CFG的扩散模型。此外,MG方法还显著加速了训练过程,使推理速度提高了一倍。这些结果表明,MG方法是一种高效且有效的扩散模型训练方法。
🎯 应用场景
该研究成果可广泛应用于图像生成、图像编辑、图像修复等领域。通过去除CFG,可以显著提高生成模型的效率,降低计算成本,使其更容易部署在资源受限的设备上。此外,该方法还可以应用于其他条件生成任务,例如文本到图像生成、语音合成等,具有广泛的应用前景。
📄 摘要(原文)
This paper presents Model-guidance (MG), a novel objective for training diffusion model that addresses and removes of the commonly used Classifier-free guidance (CFG). Our innovative approach transcends the standard modeling of solely data distribution to incorporating the posterior probability of conditions. The proposed technique originates from the idea of CFG and is easy yet effective, making it a plug-and-play module for existing models. Our method significantly accelerates the training process, doubles the inference speed, and achieve exceptional quality that parallel and even surpass concurrent diffusion models with CFG. Extensive experiments demonstrate the effectiveness, efficiency, scalability on different models and datasets. Finally, we establish state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34. Our code is available at https://github.com/tzco/Diffusion-wo-CFG.