Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts

📄 arXiv: 2411.17077v1 📥 PDF

作者: Jinho Chang, Hyungjin Chung, Jong Chul Ye

分类: cs.LG, cs.AI, cs.CV

发布日期: 2024-11-26

备注: 14 pages, 8 figures


💡 一句话要点

提出对比CFG方法,通过对比正负概念提升扩散模型中CFG的性能。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 分类器无关引导 对比学习 条件生成 图像生成

📋 核心要点

  1. 现有负CFG方法简单取反引导,导致样本偏离边缘分布,影响生成质量。
  2. 利用对比损失,使引导项根据条件对齐或排斥去噪方向,改善负引导效果。
  3. 实验表明,该方法在移除不需要概念的同时,能保持样本质量,适用于多种场景。

📝 摘要(中文)

分类器无关引导(CFG)已被证明在条件扩散模型采样中能有效提升条件对齐,许多应用使用取反的CFG项来过滤掉样本中不需要的特征。然而,简单地取反CFG引导会产生反向的概率分布,常常使样本偏离边缘分布。受到逆问题条件扩散模型最新进展的启发,我们提出了一种新颖的方法,使用对比损失来增强负CFG引导。具体来说,我们的引导项基于给定的条件,通过对比损失来对齐或排斥去噪方向,对于正向引导,实现了与传统CFG几乎相同的引导方向,同时克服了现有负向引导方法的局限性。实验结果表明,我们的方法有效地移除了不需要的概念,同时在从简单类条件到复杂和重叠文本提示的各种场景中保持了样本质量。

🔬 方法详解

问题定义:论文旨在解决扩散模型中负分类器无关引导(CFG)的缺陷。现有方法直接对CFG引导项取反,虽然可以去除不需要的特征,但会导致生成样本偏离原始数据分布,影响生成质量。这种简单取反的方式并没有充分利用条件信息,导致负引导效果不佳。

核心思路:论文的核心思路是引入对比学习的思想,通过对比正向和负向概念,更有效地引导扩散模型的去噪过程。具体来说,不是简单地取反CFG引导,而是使用对比损失来学习一个更好的负引导方向,使其既能去除不需要的特征,又能保持样本的整体质量。

技术框架:整体框架仍然基于标准的条件扩散模型,但在引导阶段引入了对比损失。具体流程如下:1. 使用正向条件生成样本;2. 使用负向条件生成样本;3. 计算正向和负向样本之间的对比损失;4. 使用对比损失调整负向CFG引导的方向。该框架的核心在于对比损失的设计,它能够学习到更有效的负引导方向。

关键创新:最重要的创新点在于使用对比学习来增强负CFG引导。与直接取反CFG引导不同,对比学习能够更好地利用条件信息,学习到一个既能去除不需要特征,又能保持样本质量的负引导方向。这种方法避免了简单取反导致的样本分布偏移问题。

关键设计:关键设计在于对比损失函数的选择和实现。论文中使用的对比损失旨在拉近正向条件生成的样本和原始样本的距离,同时推远负向条件生成的样本和原始样本的距离。具体的损失函数形式未知,但其核心思想是鼓励模型学习到与正向条件相反,但又不会过度扭曲样本分布的负向引导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多种场景下都能有效去除不需要的概念,同时保持样本质量。具体性能数据未知,但论文强调该方法在简单类条件和复杂文本提示下均表现良好,优于现有的负CFG方法。该方法能够生成更符合用户需求的定制化内容。

🎯 应用场景

该研究成果可广泛应用于图像生成、文本生成等领域,尤其是在需要精确控制生成内容的应用中,例如图像编辑、风格迁移、内容审查等。通过有效去除不需要的特征,可以生成更符合用户需求的定制化内容,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

As Classifier-Free Guidance (CFG) has proven effective in conditional diffusion model sampling for improved condition alignment, many applications use a negated CFG term to filter out unwanted features from samples. However, simply negating CFG guidance creates an inverted probability distribution, often distorting samples away from the marginal distribution. Inspired by recent advances in conditional diffusion models for inverse problems, here we present a novel method to enhance negative CFG guidance using contrastive loss. Specifically, our guidance term aligns or repels the denoising direction based on the given condition through contrastive loss, achieving a nearly identical guiding direction to traditional CFG for positive guidance while overcoming the limitations of existing negative guidance methods. Experimental results demonstrate that our approach effectively removes undesirable concepts while maintaining sample quality across diverse scenarios, from simple class conditions to complex and overlapping text prompts.