Rectified Diffusion Guidance for Conditional Generation

📄 arXiv: 2410.18737v2 📥 PDF

作者: Mengfei Xia, Nan Xue, Yujun Shen, Ran Yi, Tieliang Gong, Yong-Jin Liu

分类: cs.CV

发布日期: 2024-10-24 (更新: 2025-10-01)

🔗 代码/项目: GITHUB


💡 一句话要点

提出修正扩散引导(ReCFG)方法,解决条件生成中CFG的分布偏移问题,提升生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 条件生成 无分类器引导 期望偏移 图像生成

📋 核心要点

  1. 现有的无分类器引导(CFG)方法在条件生成中存在生成分布的期望偏移问题,影响生成质量。
  2. 论文提出修正扩散引导(ReCFG)方法,通过放宽引导系数的限制,使去噪过程严格符合扩散理论。
  3. 实验表明,ReCFG与现有扩散模型兼容,无需重新训练,并在图像生成任务上取得了良好的效果。

📝 摘要(中文)

无分类器引导(CFG)是一种实用的扩散模型采样技术,它将条件和无条件得分函数与两个系数结合,这两个系数之和为一。然而,从理论上讲,使用CFG进行去噪不能表示为互易扩散过程,这可能会在使用过程中留下一些隐藏的风险。在这项工作中,我们重新审视了CFG背后的理论,并严格证实了组合系数的不当配置(即,广泛使用的求和为一的版本)会带来生成分布的期望偏移。为了纠正这个问题,我们提出了ReCFG,它放宽了引导系数的限制,使得使用该方法进行去噪严格符合扩散理论。我们进一步表明,在给定引导强度的情况下,我们的方法具有闭式解。这样,修正后的系数可以通过遍历观察到的数据来轻松地预先计算,几乎不影响采样速度。在真实世界数据上的经验证据表明,我们的事后设计与现有的最先进的扩散模型兼容,包括类条件模型(例如,ImageNet上的EDM2)和文本条件模型(例如,CC12M上的SD3),而无需任何重新训练。

🔬 方法详解

问题定义:论文旨在解决条件生成任务中,使用Classifier-Free Guidance (CFG) 方法时,由于不合理的系数配置导致的生成分布期望偏移问题。现有CFG方法通常将条件和无条件得分函数以系数之和为1的方式进行组合,但这种配置在理论上与互易扩散过程不一致,导致生成结果存在偏差。

核心思路:论文的核心思路是重新审视CFG的理论基础,发现系数之和为1的约束是导致期望偏移的根本原因。因此,论文提出放宽这一约束,允许系数自由调整,从而使去噪过程与扩散理论严格对齐。通过这种方式,可以避免生成分布的期望偏移,提高生成质量。

技术框架:ReCFG方法的核心在于对CFG的系数进行修正。具体来说,不再强制要求条件和无条件得分函数的系数之和为1,而是允许它们独立调整。论文推导出了在给定引导强度下,修正系数的闭式解。这意味着可以预先计算出这些系数,而无需在采样过程中进行额外的计算。整体流程与标准的扩散模型采样过程类似,只是在组合条件和无条件得分函数时,使用了修正后的系数。

关键创新:ReCFG最重要的创新点在于理论上的修正,即通过放宽系数约束,使CFG方法在理论上与扩散过程保持一致。此外,ReCFG具有闭式解,可以高效地计算修正后的系数,从而保证了采样速度。这种事后修正的设计使得ReCFG可以方便地应用于现有的扩散模型,而无需重新训练。

关键设计:ReCFG的关键设计在于修正系数的计算方法。论文推导出了在给定引导强度下,修正系数的闭式解,这依赖于对观测数据的统计特性进行估计。具体的技术细节包括如何估计条件和无条件得分函数的方差,以及如何根据引导强度调整修正系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在ImageNet和CC12M数据集上进行了实验,分别使用了EDM2和SD3作为基线模型。实验结果表明,ReCFG可以在不重新训练模型的情况下,显著提高生成样本的质量。具体来说,ReCFG在FID指标上取得了明显的提升,表明生成样本与真实样本的分布更加接近。此外,主观评价也表明,ReCFG生成的图像更加清晰、逼真。

🎯 应用场景

该研究成果可广泛应用于图像生成、文本生成等条件生成任务中。通过修正扩散引导,可以提高生成样本的质量和多样性,减少生成偏差。例如,在图像编辑、图像修复、风格迁移等领域,ReCFG可以生成更逼真、更符合用户需求的图像。此外,该方法还可以应用于科学研究领域,例如生成蛋白质结构、分子结构等。

📄 摘要(原文)

Classifier-Free Guidance (CFG), which combines the conditional and unconditional score functions with two coefficients summing to one, serves as a practical technique for diffusion model sampling. Theoretically, however, denoising with CFG \textit{cannot} be expressed as a reciprocal diffusion process, which may consequently leave some hidden risks during use. In this work, we revisit the theory behind CFG and rigorously confirm that the improper configuration of the combination coefficients (\textit{i.e.}, the widely used summing-to-one version) brings about expectation shift of the generative distribution. To rectify this issue, we propose ReCFG with a relaxation on the guidance coefficients such that denoising with \method strictly aligns with the diffusion theory. We further show that our approach enjoys a \textbf{\textit{closed-form}} solution given the guidance strength. That way, the rectified coefficients can be readily pre-computed via traversing the observed data, leaving the sampling speed barely affected. Empirical evidence on real-world data demonstrate the compatibility of our post-hoc design with existing state-of-the-art diffusion models, including both class-conditioned ones (\textit{e.g.}, EDM2 on ImageNet) and text-conditioned ones (\textit{e.g.}, SD3 on CC12M), without any retraining. Code is available at \href{https://github.com/thuxmf/recfg}{https://github.com/thuxmf/recfg}.