EP-CFG: Energy-Preserving Classifier-Free Guidance

📄 arXiv: 2412.09966v1 📥 PDF

作者: Kai Zhang, Fujun Luan, Sai Bi, Jianming Zhang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-12-13


💡 一句话要点

提出EP-CFG,通过能量保持解决扩散模型中CFG过饱和和过对比问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 无分类器引导 图像生成 能量保持 伪影抑制

📋 核心要点

  1. 现有CFG方法在高引导强度下易产生过对比和过饱和伪影,影响图像质量。
  2. EP-CFG的核心思想是在引导过程中保持条件预测的能量分布,避免能量突变。
  3. 实验表明,EP-CFG在保持图像细节和质量的同时,保留了CFG的语义对齐优势。

📝 摘要(中文)

无分类器引导(CFG)广泛应用于扩散模型中,但通常在高引导强度下会引入过度对比和过度饱和的伪影。本文提出了能量保持无分类器引导(EP-CFG),通过在引导过程中保持条件预测的能量分布来解决这些问题。我们的方法简单地重新缩放引导输出的能量,使其与每个去噪步骤中条件预测的能量相匹配,并提供一个可选的鲁棒变体以改进伪影抑制。实验表明,EP-CFG在保持CFG语义对齐优势的同时,保持了自然图像质量,并在各种引导强度下保留了细节,且计算开销极小。

🔬 方法详解

问题定义:扩散模型中的无分类器引导(CFG)方法,虽然能够有效控制生成图像的语义,但在高引导强度下容易产生过对比和过饱和的伪影,导致图像质量下降。现有方法难以在保证语义对齐的同时,避免这些伪影的产生。

核心思路:EP-CFG的核心思路是在引导过程中,保持引导后输出的能量分布与条件预测的能量分布一致。通过能量的重新缩放,避免引导过程对图像能量分布的过度改变,从而抑制伪影的产生。这种方法旨在更精细地控制引导过程,使其在语义引导的同时,尽可能保持图像的自然属性。

技术框架:EP-CFG方法主要包含以下步骤:首先,进行标准的扩散模型去噪过程,得到条件预测和无条件预测。然后,计算条件预测的能量。接着,对引导后的输出进行能量缩放,使其能量与条件预测的能量相匹配。最后,使用缩放后的输出进行下一步的去噪迭代。此外,论文还提出了一个鲁棒变体,用于进一步抑制伪影。

关键创新:EP-CFG的关键创新在于能量保持的思想。与传统的直接对预测结果进行加权平均的CFG方法不同,EP-CFG关注的是引导过程对图像能量分布的影响,并通过能量缩放来保持能量分布的稳定。这种方法能够更有效地抑制高引导强度下产生的伪影。

关键设计:EP-CFG的关键设计在于能量缩放的实现方式。具体来说,它计算条件预测的能量,然后将引导后输出的能量缩放到与条件预测能量相同。能量的计算方式可以是简单的像素值平方和,也可以是更复杂的能量函数。此外,鲁棒变体可能涉及到对能量差异的阈值处理,以避免极端能量值的干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EP-CFG在各种引导强度下都能有效抑制过对比和过饱和伪影,同时保持图像的细节和质量。与传统的CFG方法相比,EP-CFG在主观视觉效果和客观评价指标上均有显著提升。尤其是在高引导强度下,EP-CFG的优势更加明显。

🎯 应用场景

EP-CFG可广泛应用于各种基于扩散模型的图像生成任务,例如文本到图像生成、图像编辑、图像修复等。该方法能够提高生成图像的质量,减少伪影,从而提升用户体验。此外,EP-CFG的低计算开销使其易于集成到现有的扩散模型框架中,具有很高的实用价值。

📄 摘要(原文)

Classifier-free guidance (CFG) is widely used in diffusion models but often introduces over-contrast and over-saturation artifacts at higher guidance strengths. We present EP-CFG (Energy-Preserving Classifier-Free Guidance), which addresses these issues by preserving the energy distribution of the conditional prediction during the guidance process. Our method simply rescales the energy of the guided output to match that of the conditional prediction at each denoising step, with an optional robust variant for improved artifact suppression. Through experiments, we show that EP-CFG maintains natural image quality and preserves details across guidance strengths while retaining CFG's semantic alignment benefits, all with minimal computational overhead.