Classifier-free Guidance with Adaptive Scaling

📄 arXiv: 2502.10574v1 📥 PDF

作者: Dawid Malarz, Artur Kasymov, Maciej Zięba, Jacek Tabor, Przemysław Spurek

分类: cs.CV

发布日期: 2025-02-14


💡 一句话要点

提出β-CFG自适应调整扩散模型引导强度,平衡图像质量与文本一致性

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 文本到图像生成 扩散模型 Classifier-free Guidance 自适应缩放 图像质量

📋 核心要点

  1. 现有CFG方法在文本驱动扩散模型中存在图像质量与文本一致性的trade-off问题,强引导损失质量,弱引导损失一致性。
  2. β-CFG通过梯度自适应归一化稳定引导效果,并使用β分布时变曲线动态调整提示匹配和样本质量的平衡。
  3. 实验表明,β-CFG在保持文本-图像CLIP相似度水平的同时,提升了FID分数,实现了更好的图像质量。

📝 摘要(中文)

本文提出了一种名为β-CFG(Classifier-Free Guidance中的β自适应缩放)的方法,旨在解决文本驱动扩散模型中Classifier-free guidance (CFG) 在图像质量和文本提示一致性之间的权衡问题。强引导虽然能生成与文本提示高度匹配的图像,但会牺牲图像质量;弱引导则能生成高质量图像,但与文本提示的匹配度较低。β-CFG通过基于梯度的自适应归一化来稳定引导效果,并利用单峰(β分布)时变曲线族动态调整扩散去噪过程中提示匹配和样本质量之间的权衡。实验结果表明,该模型在保持与参考CFG相似的文本-图像CLIP相似度水平的同时,获得了更好的FID分数。

🔬 方法详解

问题定义:文本驱动的扩散模型依赖于Classifier-Free Guidance (CFG) 来控制生成图像与文本提示的一致性。然而,传统的CFG方法面临一个固有的矛盾:增强引导强度可以提高图像与文本提示的匹配度,但会导致图像质量下降;反之,减弱引导强度可以提升图像质量,但会降低与文本提示的匹配度。因此,如何在保证图像质量的同时,最大程度地实现文本提示的引导,是本文要解决的核心问题。

核心思路:本文的核心思路是动态地、自适应地调整CFG的引导强度,从而在扩散模型的去噪过程中,根据不同的时间步,动态平衡图像质量和文本提示的一致性。具体来说,通过引入一个可学习的参数β,并将其与时间步相关联,使得引导强度可以随着去噪过程的变化而变化。这样,在需要高质量图像的阶段,可以减弱引导强度;在需要与文本提示更匹配的阶段,可以增强引导强度。

技术框架:β-CFG方法主要包含两个关键组成部分。首先,它使用基于梯度的自适应归一化方法来稳定引导效果,减少因引导强度变化带来的不稳定性。其次,它引入了一族单峰(β分布)时变曲线,这些曲线定义了β参数随时间步的动态变化。在扩散模型的去噪过程中,β参数会根据当前的时间步,动态调整CFG的引导强度。整体流程与标准的扩散模型相似,只是在计算噪声预测时,使用了动态调整的引导强度。

关键创新:β-CFG的关键创新在于其动态调整引导强度的能力。与传统的CFG方法相比,β-CFG不再使用固定的引导强度,而是根据时间步自适应地调整。这种自适应性使得模型能够在不同的去噪阶段,根据需要,动态平衡图像质量和文本提示的一致性。此外,基于梯度的自适应归一化方法也有助于稳定引导效果,减少因引导强度变化带来的负面影响。

关键设计:β参数的动态变化由一族单峰(β分布)时变曲线定义。这些曲线的形状和位置可以通过学习来优化,从而使得模型能够更好地适应不同的文本提示和图像生成任务。此外,基于梯度的自适应归一化方法使用梯度的统计信息来调整归一化参数,从而稳定引导效果。具体的损失函数和网络结构与标准的扩散模型相似,只是在计算噪声预测时,需要考虑动态调整的引导强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,β-CFG在保持与参考CFG相似的文本-图像CLIP相似度水平的同时,获得了更好的FID分数。这意味着β-CFG能够在保证图像与文本提示一致性的前提下,显著提升图像质量。具体的性能提升幅度取决于数据集和任务,但总体趋势是β-CFG优于传统的CFG方法。

🎯 应用场景

该研究成果可广泛应用于文本到图像生成、图像编辑、风格迁移等领域。通过自适应地调整引导强度,可以生成更高质量、与文本描述更一致的图像,提升用户体验。未来,该方法有望应用于更复杂的生成任务,例如视频生成、3D模型生成等。

📄 摘要(原文)

Classifier-free guidance (CFG) is an essential mechanism in contemporary text-driven diffusion models. In practice, in controlling the impact of guidance we can see the trade-off between the quality of the generated images and correspondence to the prompt. When we use strong guidance, generated images fit the conditioned text perfectly but at the cost of their quality. Dually, we can use small guidance to generate high-quality results, but the generated images do not suit our prompt. In this paper, we present $β$-CFG ($β$-adaptive scaling in Classifier-Free Guidance), which controls the impact of guidance during generation to solve the above trade-off. First, $β$-CFG stabilizes the effects of guiding by gradient-based adaptive normalization. Second, $β$-CFG uses the family of single-modal ($β$-distribution), time-dependent curves to dynamically adapt the trade-off between prompt matching and the quality of samples during the diffusion denoising process. Our model obtained better FID scores, maintaining the text-to-image CLIP similarity scores at a level similar to that of the reference CFG.