Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models

📄 arXiv: 2505.21179v3 📥 PDF

作者: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-06-03)


💡 一句话要点

提出归一化注意力引导(NAG),解决扩散模型中负引导失效问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 负引导 注意力机制 文本到图像生成 图像编辑

📋 核心要点

  1. 扩散模型中负引导在少步采样时面临挑战,现有CFG方法易失效。
  2. NAG通过在注意力空间进行L1归一化外推,恢复有效负引导。
  3. NAG具有通用性,适用于多种架构、采样机制和模态,且计算开销小。

📝 摘要(中文)

负引导,即显式抑制不需要的属性,是扩散模型中的一个基本挑战,尤其是在少步采样机制中。虽然无分类器引导(CFG)在标准设置下表现良好,但由于正负分支之间预测的发散,它在激进的采样步数压缩下会失效。我们提出了归一化注意力引导(NAG),这是一种高效、无需训练的机制,它在注意力空间中应用基于L1范数归一化和细化的外推法。NAG在CFG崩溃的地方恢复了有效的负引导,同时保持了保真度。与现有方法不同,NAG可以推广到各种架构(UNet、DiT)、采样机制(少步、多步)和模态(图像、视频),作为一个具有最小计算开销的通用插件。通过大量的实验,我们证明了在文本对齐(CLIP Score)、保真度(FID、PFID)和人类感知质量(ImageReward)方面的一致改进。我们的消融研究验证了每个设计组件,而用户研究证实了对NAG引导输出的显著偏好。作为一种无需重新训练的模型无关的推理时方法,NAG为所有现代扩散框架提供了轻松的负引导。

🔬 方法详解

问题定义:扩散模型中的负引导旨在抑制生成结果中不需要的属性。现有方法,如无分类器引导(CFG),在标准设置下有效,但在少步采样或激进的采样步数压缩情况下,由于正负分支预测的发散,会导致负引导失效,影响生成质量。

核心思路:NAG的核心思路是在注意力空间中进行负引导,通过对注意力权重进行操作来实现对不需要属性的抑制。具体来说,它利用正向和负向条件下的注意力权重差异,通过外推的方式增强这种差异,从而更有效地抑制不需要的属性。这种方法避免了直接在像素空间进行操作,从而减少了计算量,并提高了泛化能力。

技术框架:NAG是一种推理时方法,不需要额外的训练。它主要包含以下步骤:1) 获取正向条件(例如,带有文本提示)和负向条件(例如,没有文本提示或带有负面文本提示)下的注意力权重;2) 对注意力权重进行L1范数归一化;3) 使用外推法增强正负条件下的注意力权重差异;4) 将修改后的注意力权重应用到扩散模型的采样过程中。

关键创新:NAG的关键创新在于其在注意力空间进行负引导,并采用L1范数归一化和外推法来增强负引导效果。与直接在像素空间进行操作的方法相比,NAG计算效率更高,并且具有更好的泛化能力。此外,NAG是一种模型无关的方法,可以应用于各种扩散模型架构和采样机制。

关键设计:NAG的关键设计包括:1) 使用L1范数进行归一化,以稳定注意力权重;2) 使用外推系数来控制负引导的强度;3) 将NAG应用于扩散模型的多个注意力层,以获得更好的效果。具体的外推公式为:attention_new = attention_positive + guidance_scale * (attention_positive - attention_negative),其中guidance_scale是控制负引导强度的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NAG在文本对齐(CLIP Score)、图像保真度(FID、PFID)和人类感知质量(ImageReward)方面均优于现有方法。例如,在文本到图像生成任务中,NAG能够显著提高生成图像与文本提示的对齐程度,并生成更逼真、更符合人类偏好的图像。用户研究也表明,用户更倾向于NAG引导的输出。

🎯 应用场景

NAG可广泛应用于各种扩散模型应用中,例如文本到图像生成、图像编辑、视频生成等。它能够提高生成结果的文本对齐性、图像保真度和人类感知质量。由于其通用性和易用性,NAG可以作为一种即插即用的负引导方法,为各种扩散模型应用带来显著的改进。

📄 摘要(原文)

Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a \textit{universal} plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!