Delta Score Matters! Spatial Adaptive Multi Guidance in Diffusion Models
作者: Haosen Li, Wenshuo Chen, Lei Wang, Shaofeng Liang, Bowen Tian, Soning Lai, Yutao Yue
分类: cs.CV
发布日期: 2026-04-29
💡 一句话要点
提出空间自适应多重引导(SAMG),解决扩散模型中细节缺失与伪影问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 无分类器引导 空间自适应 图像生成 视频生成 细节-伪影困境 条件引导能量 采样算法
📋 核心要点
- 现有无分类器引导(CFG)在扩散模型中采用全局统一尺度,导致生成图像或视频时出现细节缺失或伪影。
- 论文提出空间自适应多重引导(SAMG),通过动态计算逐点条件引导能量,自适应调整引导尺度。
- 实验表明,SAMG在图像和视频生成中,能有效解决细节-伪影困境,提升语义对齐、结构完整性和时间平滑性。
📝 摘要(中文)
扩散模型在合成复杂的静态和时序视觉内容方面取得了显著成功,这主要归功于无分类器引导(CFG)。然而,尽管CFG在使生成内容与文本提示对齐方面发挥着关键作用,但标准的CFG依赖于全局统一的标量。这种同质放大使得模型陷入了众所周知的“细节-伪影困境”:低引导尺度无法注入复杂的语义,而高尺度不可避免地导致结构退化、颜色过度饱和以及视频中的时间不一致性。本文通过微分几何的视角揭示了这种缺陷的物理根源。通过分析Tweedie公式,我们发现CFG本质上执行切向线性外推。由于自然数据流形是高度弯曲的,这种均匀的线性步长会引入严重的垂直偏差。为了保持生成轨迹的安全边界,我们制定了空间自适应引导的理论上限。基于这些几何见解,我们提出了一种无需训练且几乎零成本的采样算法——空间自适应多重引导(SAMG)。SAMG动态地计算逐点条件引导能量,对高能量边界区域应用保守的最小尺度以保留精细的微观纹理,同时在低能量区域部署激进的最大尺度以最大化语义注入。在各种图像(SD 1.5、SDXL、SD3.5 Medium)和视频(CogVideoX、ModelScope)架构上的大量实验表明,SAMG有效地解决了细节-伪影困境,实现了卓越的语义对齐、结构完整性和时间平滑性,而没有任何计算开销。
🔬 方法详解
问题定义:扩散模型中的无分类器引导(CFG)使用全局统一的引导尺度,导致生成结果在细节和伪影之间难以平衡。低引导尺度无法充分注入语义信息,导致细节缺失;而高引导尺度则容易引入结构退化、颜色过饱和以及视频中的时间不一致性等伪影。现有方法难以在全局范围内找到一个合适的引导尺度,以同时保证细节和整体质量。
核心思路:论文的核心思路是根据图像或视频中不同区域的特征,自适应地调整引导尺度。具体而言,通过计算每个像素或区域的“引导能量”,来衡量该区域对语义信息的依赖程度。在高能量区域(例如边缘或纹理丰富的区域),采用较小的引导尺度,以避免引入伪影并保留细节;而在低能量区域(例如平滑区域),则采用较大的引导尺度,以充分注入语义信息。这种自适应的引导策略能够更好地平衡细节和整体质量。
技术框架:SAMG算法主要包含以下几个步骤:1) 使用扩散模型进行初步的图像或视频生成;2) 计算每个像素或区域的条件引导能量;3) 根据引导能量,动态地调整每个像素或区域的引导尺度;4) 使用调整后的引导尺度,重新生成图像或视频。整个过程无需额外的训练,可以直接应用于现有的扩散模型。
关键创新:SAMG的关键创新在于提出了空间自适应的引导策略。与传统的CFG方法相比,SAMG不再使用全局统一的引导尺度,而是根据图像或视频的内容,动态地调整每个像素或区域的引导尺度。这种自适应的策略能够更好地平衡细节和整体质量,从而有效地解决细节-伪影困境。此外,SAMG算法无需额外的训练,可以直接应用于现有的扩散模型,具有很强的实用性。
关键设计:SAMG的关键设计在于条件引导能量的计算方式和引导尺度的调整策略。条件引导能量可以通过分析扩散模型的中间层特征来估计,例如可以使用梯度或激活值的幅度来衡量。引导尺度的调整策略可以采用线性或非线性的映射关系,将引导能量映射到合适的引导尺度范围。论文中还提出了一个理论上限,用于约束引导尺度的范围,以避免引入过多的伪影。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAMG算法在多个图像和视频生成任务上均取得了显著的提升。例如,在SDXL上,SAMG能够生成更清晰、更逼真的图像,同时减少伪影的出现。在CogVideoX上,SAMG能够生成时间上更平滑、更一致的视频。与传统的CFG方法相比,SAMG在语义对齐、结构完整性和时间平滑性方面均有明显的优势,且无需任何计算开销。
🎯 应用场景
SAMG算法可广泛应用于图像和视频生成领域,例如文本到图像生成、图像编辑、视频生成和视频编辑等。该方法能够提升生成内容在语义对齐、结构完整性和时间平滑性方面的表现,从而生成更逼真、更符合用户需求的视觉内容。此外,SAMG算法无需额外的训练,可以直接应用于现有的扩散模型,具有很强的实用价值和推广潜力。
📄 摘要(原文)
Diffusion models have achieved remarkable success in synthesizing complex static and temporal visuals, a breakthrough largely driven by Classifier-Free Guidance (CFG). However, despite its pivotal role in aligning generated content with textual prompts, standard CFG relies on a globally uniform scalar. This homogeneous amplification traps models in a well-documented "detail-artifact dilemma": low guidance scales fail to inject intricate semantics, while high scales inevitably cause structural degradation, color over-saturation, and temporal inconsistencies in videos. In this paper, we expose the physical root of this flaw through the lens of differential geometry. By analyzing Tweedie's Formula, we reveal that CFG intrinsically performs a tangential linear extrapolation. Because the natural data manifold is highly curved, this uniform linear step introduces a severe orthogonal deviation. To keep the generation trajectory safely bounded, we formulate a theoretical upper bound for spatial and adaptive guidance. Based on these geometric insights, we propose Spatial Adaptive Multi Guidance (SAMG), a training-free and virtually zero-cost sampling algorithm. SAMG dynamically computes point-wise conditional guidance energy, applying a conservative minimum scale to high-energy boundary regions to preserve delicate micro-textures, while deploying an aggressive maximum scale in low-energy regions to maximize semantic injection. Extensive experiments across diverse image (SD 1.5, SDXL, SD3.5 Medium) and video (CogVideoX, ModelScope) architectures demonstrate that SAMG effectively resolves the detail-artifact dilemma, achieving superior semantic alignment, structural integrity, and temporal smoothness without any computational overhead.