Improving Classifier-Free Guidance of Flow Matching via Manifold Projection
作者: Jian-Feng Cai, Haixia Liu, Zhengyi Su, Chao Wang
分类: cs.CV, cs.AI
发布日期: 2026-01-29
备注: 24 pages, 14 figures
💡 一句话要点
提出基于流匹配流形投影的无分类器引导方法,提升生成质量与控制性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 无分类器引导 流匹配 流形投影 同伦优化 可控生成
📋 核心要点
- 现有无分类器引导(CFG)方法依赖启发式线性外推,对引导尺度敏感,影响生成质量和控制性。
- 论文将CFG视为同伦优化问题,引入流形约束,通过流形投影优化采样过程。
- 提出的方法无需额外训练,在多个大型模型上验证,显著提升了生成质量、提示对齐和鲁棒性。
📝 摘要(中文)
无分类器引导(CFG)是扩散模型和基于流的模型中可控生成的一种广泛使用的技术。尽管CFG在实践中取得了成功,但它依赖于一种启发式的线性外推,通常对引导尺度敏感。本文从优化的角度对CFG提供了一种原则性的解释。我们证明了流匹配中的速度场对应于一系列平滑距离函数的梯度,引导潜在变量朝向缩放的目标图像集。这个视角揭示了标准的CFG公式是该梯度的一种近似,其中预测差距(条件输出和无条件输出之间的差异)控制着引导敏感性。基于此,我们将CFG采样重新定义为具有流形约束的同伦优化。这种公式需要一个流形投影步骤,我们通过采样期间的增量梯度下降方案来实现。为了提高计算效率和稳定性,我们使用Anderson加速来增强这个迭代过程,而无需额外的模型评估。我们提出的方法是免训练的,并且始终如一地提高生成保真度、提示对齐和对引导尺度的鲁棒性。我们在各种基准测试中验证了其有效性,证明了在DiT-XL-2-256、Flux和Stable Diffusion 3.5等大型模型上的显著改进。
🔬 方法详解
问题定义:现有无分类器引导(CFG)方法在可控生成中被广泛应用,但其依赖的线性外推策略对引导尺度非常敏感,导致生成结果不稳定,难以获得高质量和精确控制的生成结果。这种敏感性源于对真实条件分布的近似不准确。
核心思路:论文的核心思路是将CFG采样过程重新解释为在流形约束下的同伦优化问题。通过将速度场视为一系列平滑距离函数的梯度,并引入流形投影步骤,可以更精确地引导潜在变量向目标图像集移动。这种方法旨在克服传统CFG的线性外推近似带来的问题,从而提高生成质量和对引导尺度的鲁棒性。
技术框架:整体框架包括以下几个主要阶段:1) 将CFG采样视为同伦优化;2) 引入流形约束,确保采样过程在数据流形上进行;3) 通过增量梯度下降实现流形投影;4) 使用Anderson加速提高计算效率和稳定性。该框架无需额外的模型训练,可以直接应用于现有的扩散模型和基于流的模型。
关键创新:最重要的技术创新点在于将CFG采样过程重新定义为流形约束下的同伦优化。与传统的线性外推方法不同,该方法通过流形投影更准确地逼近真实的条件分布,从而提高了生成质量和控制性。此外,使用Anderson加速进一步提高了计算效率和稳定性。
关键设计:流形投影通过增量梯度下降实现,具体而言,在每一步采样过程中,首先进行标准的CFG更新,然后进行梯度下降以将采样点投影回数据流形。Anderson加速用于加速梯度下降过程,通过维护历史梯度信息的加权平均来更有效地更新参数。关键参数包括梯度下降的学习率和Anderson加速的记忆长度。损失函数隐式地定义为到数据流形的距离,通过梯度下降最小化该距离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在DiT-XL-2-256、Flux和Stable Diffusion 3.5等大型模型上取得了显著改进。例如,在图像生成任务中,该方法能够显著提高生成图像的保真度和提示对齐度,同时对引导尺度的变化更加鲁棒。具体性能提升数据未知,但论文强调了在多个基准测试上的有效性。
🎯 应用场景
该研究成果可广泛应用于图像生成、编辑和风格迁移等领域。通过提高生成质量和对引导尺度的鲁棒性,可以为用户提供更精确和可控的生成体验。此外,该方法还可以应用于其他生成模型,例如GANs和VAE,具有广泛的应用前景和实际价值。未来,该技术有望在创意设计、虚拟现实和游戏开发等领域发挥重要作用。
📄 摘要(原文)
Classifier-free guidance (CFG) is a widely used technique for controllable generation in diffusion and flow-based models. Despite its empirical success, CFG relies on a heuristic linear extrapolation that is often sensitive to the guidance scale. In this work, we provide a principled interpretation of CFG through the lens of optimization. We demonstrate that the velocity field in flow matching corresponds to the gradient of a sequence of smoothed distance functions, which guides latent variables toward the scaled target image set. This perspective reveals that the standard CFG formulation is an approximation of this gradient, where the prediction gap, the discrepancy between conditional and unconditional outputs, governs guidance sensitivity. Leveraging this insight, we reformulate the CFG sampling as a homotopy optimization with a manifold constraint. This formulation necessitates a manifold projection step, which we implement via an incremental gradient descent scheme during sampling. To improve computational efficiency and stability, we further enhance this iterative process with Anderson Acceleration without requiring additional model evaluations. Our proposed methods are training-free and consistently refine generation fidelity, prompt alignment, and robustness to the guidance scale. We validate their effectiveness across diverse benchmarks, demonstrating significant improvements on large-scale models such as DiT-XL-2-256, Flux, and Stable Diffusion 3.5.