Manifold-Optimal Guidance: A Unified Riemannian Control View of Diffusion Guidance
作者: Zexi Jia, Pengcheng Luo, Zhengyao Fang, Jinchao Zhang, Jie Zhou
分类: cs.CV
发布日期: 2026-03-12
💡 一句话要点
提出流形最优引导(MOG)框架,解决扩散模型条件引导中的过饱和和伪影问题
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 条件引导 黎曼几何 最优控制 图像生成
📋 核心要点
- 传统无分类器引导在高引导尺度下易产生过饱和和伪影,原因是其欧几里得外推偏离了高密度数据流形。
- MOG将引导视为局部最优控制问题,通过黎曼更新校正流形漂移,无需重新训练即可实现几何感知。
- Auto-MOG动态校准引导强度,自适应调整超参数,实验表明MOG在保真度和对齐方面优于基线。
📝 摘要(中文)
无分类器引导(CFG)是条件扩散模型的标准控制机制,但高引导尺度容易导致过饱和、纹理伪影和结构崩溃。我们认为这种失败源于几何不匹配:标准CFG在环境空间中执行欧几里得外推,无意中将采样轨迹驱动到高密度数据流形之外。为了解决这个问题,我们提出了流形最优引导(MOG),该框架将引导重新定义为局部最优控制问题。MOG产生了一种闭式、几何感知的黎曼更新,可以在不需要重新训练的情况下校正离流形漂移。利用这种视角,我们进一步引入了Auto-MOG,一种动态能量平衡调度,可以自适应地校准引导强度,从而有效地消除了手动超参数调整的需要。大量的验证表明,与基线相比,MOG产生了卓越的保真度和对齐效果,并且几乎没有增加计算开销。
🔬 方法详解
问题定义:现有无分类器引导(CFG)方法在高引导尺度下,由于在欧几里得空间进行外推,导致采样轨迹偏离真实数据流形,产生过饱和、纹理伪影和结构崩溃等问题。这些问题严重影响了生成图像的质量和真实性。
核心思路:论文的核心思路是将条件扩散模型的引导过程视为一个局部最优控制问题,并在黎曼流形上进行优化。通过在流形上进行优化,可以避免采样轨迹偏离真实数据分布,从而提高生成图像的质量。
技术框架:MOG框架主要包含以下几个步骤:1) 将扩散模型的采样过程视为一个控制问题。2) 在黎曼流形上定义最优控制目标。3) 推导出闭式解的黎曼更新公式,用于校正采样轨迹。4) 引入Auto-MOG,动态调整引导强度,无需手动调整超参数。
关键创新:MOG的关键创新在于将扩散模型的引导过程与黎曼几何相结合,提出了一种几何感知的引导方法。与传统的欧几里得空间引导方法相比,MOG能够更好地保持采样轨迹在真实数据流形上,从而提高生成图像的质量。Auto-MOG的动态能量平衡调度进一步提升了MOG的实用性,降低了调参难度。
关键设计:MOG的关键设计包括:1) 使用黎曼度量来衡量数据流形上的距离。2) 推导了在黎曼流形上的梯度更新公式。3) 设计了Auto-MOG的能量平衡调度策略,该策略基于采样过程中的能量变化来动态调整引导强度。具体而言,Auto-MOG通过监控采样轨迹的能量变化,自适应地调整引导强度,以避免过饱和和伪影的产生。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MOG在图像保真度和条件对齐方面显著优于现有基线方法。与传统CFG相比,MOG能够生成更清晰、更真实的图像,并且能够更好地满足用户的条件要求。此外,Auto-MOG能够自动调整引导强度,无需手动调参,进一步提升了MOG的实用性。
🎯 应用场景
该研究成果可应用于各种条件图像生成任务,例如文本到图像生成、图像编辑和图像修复等。通过提高生成图像的质量和真实性,MOG可以提升用户体验,并为相关应用带来更大的价值。此外,Auto-MOG的自适应超参数调整能力降低了使用门槛,使得该方法更容易被应用到实际场景中。
📄 摘要(原文)
Classifier-Free Guidance (CFG) serves as the de facto control mechanism for conditional diffusion, yet high guidance scales notoriously induce oversaturation, texture artifacts, and structural collapse. We attribute this failure to a geometric mismatch: standard CFG performs Euclidean extrapolation in ambient space, inadvertently driving sampling trajectories off the high-density data manifold. To resolve this, we present Manifold-Optimal Guidance (MOG), a framework that reformulates guidance as a local optimal control problem. MOG yields a closed-form, geometry-aware Riemannian update that corrects off-manifold drift without requiring retraining. Leveraging this perspective, we further introduce Auto-MOG, a dynamic energy-balancing schedule that adaptively calibrates guidance strength, effectively eliminating the need for manual hyperparameter tuning. Extensive validation demonstrates that MOG yields superior fidelity and alignment compared to baselines, with virtually no added computational overhead.