Guided Path Sampling: Steering Diffusion Models Back on Track with Principled Path Guidance

📄 arXiv: 2512.22881v1 📥 PDF

作者: Haosen Li, Wenshuo Chen, Shaofeng Liang, Lei Wang, Haozhe Jia, Yutao Yue

分类: cs.CV

发布日期: 2025-12-28


💡 一句话要点

提出引导路径采样(GPS),通过约束采样路径解决扩散模型迭代优化中的不稳定问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 迭代优化 无分类器引导 流形约束 采样路径 图像生成 语义对齐

📋 核心要点

  1. 现有基于去噪-反演循环的迭代优化方法在扩散模型中受限于标准无分类器引导(CFG)的缺陷。
  2. 提出引导路径采样(GPS),通过流形约束插值确保采样路径位于数据流形上,实现稳定优化。
  3. 实验表明,GPS在感知质量和语义对齐方面优于现有方法,并在SDXL等模型上取得了显著提升。

📝 摘要(中文)

本文提出了一种新的迭代优化范式,称为引导路径采样(GPS),旨在解决标准无分类器引导(CFG)在扩散模型中应用时效果受限的问题。研究发现,CFG的推断特性会系统性地将采样路径推离数据流形,导致近似误差发散,从而破坏优化过程。GPS通过流形约束插值取代不稳定的外推,确保采样路径保持在数据流形上。理论证明,这种校正将误差序列从无界放大转变为严格有界,保证了稳定性。此外,还设计了一种最优调度策略,动态调整引导强度,使语义注入与模型自然的由粗到细生成过程对齐。在SDXL和Hunyuan-DiT等先进模型上的实验表明,GPS在感知质量和复杂提示遵循方面优于现有方法。例如,在SDXL上,GPS实现了0.79的ImageReward和0.2995的HPS v2,同时将GenEval上的整体语义对齐精度提高到57.45%。

🔬 方法详解

问题定义:现有基于去噪-反演循环的迭代优化方法,在结合标准无分类器引导(CFG)时,其有效性受到限制。CFG的推断特性会导致采样路径偏离数据流形,使得近似误差不断累积和放大,最终破坏迭代优化过程,导致生成质量下降和语义不一致。

核心思路:论文的核心思路是用一种基于流形约束的插值方法,即引导路径采样(GPS),来替代CFG中不稳定的外推过程。通过将采样路径约束在数据流形上,可以避免误差的累积和放大,从而保证迭代优化过程的稳定性。这样设计的目的是为了确保每一步的优化都在合理的范围内进行,避免生成结果出现偏差。

技术框架:GPS的整体框架包括以下几个主要阶段:1) 使用扩散模型进行初始采样;2) 利用引导路径采样(GPS)对采样路径进行校正,使其保持在数据流形上;3) 根据最优调度策略动态调整引导强度,将语义信息注入到生成过程中;4) 重复迭代上述过程,逐步优化生成结果。该框架的核心在于GPS模块,它负责对采样路径进行约束和校正。

关键创新:最重要的技术创新点在于提出了引导路径采样(GPS)这一概念,并将其应用于扩散模型的迭代优化中。与现有方法(如CFG)相比,GPS通过流形约束插值避免了采样路径偏离数据流形的问题,从而保证了迭代优化过程的稳定性。这种方法本质上是将优化过程限制在一个更合理的范围内,避免了误差的累积和放大。

关键设计:GPS的关键设计包括:1) 使用流形约束插值来校正采样路径,具体实现方式未知;2) 设计了一种最优调度策略,用于动态调整引导强度,该策略的具体实现方式未知;3) 误差序列的严格有界性证明,保证了算法的收敛性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,GPS在SDXL模型上实现了显著的性能提升,ImageReward指标达到0.79,HPS v2指标达到0.2995。同时,在GenEval数据集上,GPS的整体语义对齐精度提高到57.45%,表明其在复杂提示遵循方面具有优势。这些结果证明了GPS在感知质量和语义一致性方面的优越性。

🎯 应用场景

该研究成果可广泛应用于图像生成、视频生成、3D内容生成等领域。通过提高生成质量和语义一致性,可以提升用户体验,并为创意设计、虚拟现实、游戏开发等行业带来新的可能性。此外,该方法还可以应用于图像修复、图像编辑等任务,具有重要的实际应用价值。

📄 摘要(原文)

Iterative refinement methods based on a denoising-inversion cycle are powerful tools for enhancing the quality and control of diffusion models. However, their effectiveness is critically limited when combined with standard Classifier-Free Guidance (CFG). We identify a fundamental limitation: CFG's extrapolative nature systematically pushes the sampling path off the data manifold, causing the approximation error to diverge and undermining the refinement process. To address this, we propose Guided Path Sampling (GPS), a new paradigm for iterative refinement. GPS replaces unstable extrapolation with a principled, manifold-constrained interpolation, ensuring the sampling path remains on the data manifold. We theoretically prove that this correction transforms the error series from unbounded amplification to strictly bounded, guaranteeing stability. Furthermore, we devise an optimal scheduling strategy that dynamically adjusts guidance strength, aligning semantic injection with the model's natural coarse-to-fine generation process. Extensive experiments on modern backbones like SDXL and Hunyuan-DiT show that GPS outperforms existing methods in both perceptual quality and complex prompt adherence. For instance, GPS achieves a superior ImageReward of 0.79 and HPS v2 of 0.2995 on SDXL, while improving overall semantic alignment accuracy on GenEval to 57.45%. Our work establishes that path stability is a prerequisite for effective iterative refinement, and GPS provides a robust framework to achieve it.