Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
作者: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
分类: cs.LG, cs.CV
发布日期: 2024-10-03 (更新: 2025-06-03)
备注: Published as a conference paper at ICLR 2025
期刊: The Thirteenth International Conference on Learning Representations (ICLR 2025)
💡 一句话要点
提出自适应投影引导(APG),解决扩散模型中高引导尺度下的过饱和与伪影问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 分类器无关引导 图像生成 过饱和 伪影 自适应投影引导 条件生成 深度学习
📋 核心要点
- 高引导尺度的分类器无关引导(CFG)虽能提升扩散模型质量,但易导致图像过饱和和产生伪影。
- 将CFG更新项分解为平行和正交分量,降低易导致过饱和的平行分量权重,提升图像质量。
- 提出自适应投影引导(APG),结合重缩放和动量方法,实现更高引导尺度下的高质量生成,且计算开销小。
📝 摘要(中文)
分类器无关引导(CFG)对于提升扩散模型的生成质量以及输入条件与最终输出的对齐至关重要。虽然通常需要较高的引导尺度来增强这些方面,但它也会导致过饱和和不真实的伪影。本文重新审视了CFG更新规则,并引入修改来解决这个问题。我们首先将CFG中的更新项分解为与条件模型预测平行的分量和正交的分量,并观察到平行分量主要导致过饱和,而正交分量增强了图像质量。因此,我们提出降低平行分量的权重,以实现高质量的生成而没有过饱和。此外,我们将CFG与梯度上升联系起来,并基于此提出了CFG更新规则的一种新的重缩放和动量方法。我们的方法,称为自适应投影引导(APG),保留了CFG的质量提升优势,同时允许使用更高的引导尺度而不会出现过饱和。APG易于实现,并且几乎不会给采样过程带来额外的计算开销。通过大量的实验,我们证明APG与各种条件扩散模型和采样器兼容,从而提高了FID、召回率和饱和度分数,同时保持了与CFG相当的精度,使我们的方法成为标准分类器无关引导的卓越即插即用替代方案。
🔬 方法详解
问题定义:论文旨在解决扩散模型中使用分类器无关引导(CFG)时,在高引导尺度下出现的图像过饱和和不真实伪影的问题。现有的CFG方法虽然可以通过提高引导尺度来提升生成质量和条件对齐性,但过高的引导尺度会引入图像失真,限制了CFG的有效性。
核心思路:论文的核心思路是将CFG的更新项分解为与条件模型预测平行的分量和正交的分量,并发现平行分量是导致过饱和的主要原因,而正交分量有助于提升图像质量。因此,通过降低平行分量的权重,可以在不牺牲图像质量的前提下,减少过饱和现象。此外,论文还将CFG与梯度上升联系起来,借鉴梯度上升中的动量方法来改进CFG的更新规则。
技术框架:论文提出的自适应投影引导(APG)方法是对现有CFG方法的改进,整体框架与CFG类似,主要包括以下步骤:1. 使用条件和无条件扩散模型分别预测噪声;2. 将CFG更新项分解为平行和正交分量;3. 对平行分量进行降权;4. 使用重缩放和动量方法更新噪声预测;5. 使用更新后的噪声预测进行扩散模型的采样。
关键创新:论文最重要的技术创新点在于对CFG更新项的分解和对平行分量的降权。通过这种分解,可以更精确地控制CFG对生成图像的影响,从而在避免过饱和的同时,保持甚至提升图像质量。此外,将CFG与梯度上升联系起来,并引入动量方法,也为CFG的改进提供了一个新的视角。
关键设计:APG的关键设计包括:1. 平行分量和正交分量的计算方法;2. 平行分量的降权系数的选择;3. 重缩放和动量方法的具体实现。论文中并未明确给出降权系数的具体选择方法,可能需要根据具体任务进行调整。重缩放和动量方法的具体实现细节未知,需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,APG方法在FID、召回率和饱和度等指标上均优于传统的CFG方法,同时保持了与CFG相当的精度。这意味着APG能够在提升生成质量的同时,有效避免过饱和现象,从而生成更逼真、更符合条件的图像。具体的性能提升幅度未知,需要参考论文原文。
🎯 应用场景
该研究成果可广泛应用于图像生成、图像编辑、视频生成等领域,尤其是在需要高保真度和条件控制的场景下,例如艺术创作、游戏开发、虚拟现实等。APG方法能够有效提升生成图像的质量,减少伪影,从而提高用户体验和应用价值。未来,该方法有望进一步扩展到其他生成模型和任务中。
📄 摘要(原文)
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.