EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance
作者: Ankit Yadav, Ta Duc Huy, Lingqiao Liu
分类: cs.CV
发布日期: 2025-12-19
备注: 26 pages
💡 一句话要点
提出EMAG:一种基于指数移动平均指导的自校正扩散采样方法,提升生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 扩散模型 生成模型 注意力机制 负样本学习 指数移动平均
📋 核心要点
- 现有扩散模型指导方法缺乏对负样本粒度和难度的有效控制,且目标层选择固定,限制了生成质量的进一步提升。
- EMAG通过指数移动平均自适应地选择注意力层,生成更难、语义更忠实的负样本,从而暴露并纠正生成过程中的细微错误。
- 实验表明,EMAG显著提升了生成图像的质量和人类偏好得分,并且可以与现有高级指导技术相结合,进一步提高性能。
📝 摘要(中文)
在扩散模型和流匹配生成模型中,指导技术被广泛用于提高样本质量和一致性。无分类器指导(CFG)是现代系统中的常用选择,它通过对比条件样本和无条件样本来实现这一点。最近的研究探索了在推理时使用较弱模型对比负样本,通过强/弱模型对、基于注意力的掩码、随机块丢弃或扰动自注意力能量景观等方式。虽然这些策略改进了生成质量,但它们仍然缺乏对负样本粒度或难度的可靠控制,并且目标层选择通常是固定的。我们提出了一种无需训练的机制——指数移动平均指导(EMAG),它在扩散Transformer中修改推理时的注意力,并采用基于统计的自适应层选择规则。与先前的方法不同,EMAG产生更难、语义上忠实的负样本(细粒度的退化),揭示了困难的失败模式,使去噪器能够细化细微的伪影,从而提高质量和人类偏好得分(HPS),相比CFG提升了+0.46。我们进一步证明,EMAG可以自然地与高级指导技术(如APG和CADS)结合使用,从而进一步提高HPS。
🔬 方法详解
问题定义:现有扩散模型,特别是基于Transformer的扩散模型,在生成图像时依赖于指导技术来提升生成质量和一致性。然而,现有的指导方法,如无分类器指导(CFG)以及其他基于负样本对比的方法,在控制负样本的粒度和难度上存在不足,并且通常采用固定的层选择策略,这限制了模型纠正细微错误和提升生成质量的能力。
核心思路:EMAG的核心思路是通过指数移动平均(EMA)来动态调整Transformer的注意力权重,从而生成更具挑战性的负样本。这种方法能够自适应地选择需要调整的注意力层,并产生细粒度的语义退化,迫使去噪器关注并纠正生成过程中的细微瑕疵。
技术框架:EMAG主要在扩散Transformer的推理阶段进行操作。它首先计算每个注意力层的统计信息(例如,注意力权重的均值和方差)。然后,使用指数移动平均来平滑这些统计信息。接下来,基于这些平滑后的统计信息,自适应地选择需要调整的注意力层。最后,通过调整选定层的注意力权重来生成负样本,并使用这些负样本来指导扩散模型的采样过程。
关键创新:EMAG的关键创新在于其自适应的层选择机制和基于统计的负样本生成方法。与现有方法相比,EMAG能够更精细地控制负样本的难度和语义信息,从而更好地指导扩散模型的采样过程。此外,EMAG是一种无需训练的方法,可以直接应用于现有的扩散模型,而无需重新训练模型。
关键设计:EMAG的关键设计包括:1) 使用指数移动平均来平滑注意力层的统计信息,以提高鲁棒性;2) 基于统计信息自适应地选择需要调整的注意力层,以实现细粒度的控制;3) 通过调整注意力权重来生成负样本,以迫使去噪器关注细微的瑕疵。具体的参数设置包括EMA的衰减率、层选择的阈值等。这些参数需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
EMAG在图像生成任务中取得了显著的性能提升。实验结果表明,EMAG相比于传统的无分类器指导(CFG)方法,在人类偏好得分(HPS)上提升了+0.46。更重要的是,EMAG可以与APG和CADS等先进的指导技术相结合,进一步提高HPS,表明其具有良好的兼容性和扩展性。这些结果充分证明了EMAG在提升扩散模型生成质量方面的有效性。
🎯 应用场景
EMAG可以广泛应用于图像生成、视频生成等领域,尤其是在需要高保真度和细节控制的场景中。例如,可以用于生成高质量的艺术作品、逼真的人脸图像、以及具有复杂场景的视频内容。此外,EMAG还可以与其他先进的指导技术相结合,进一步提升生成质量,具有重要的实际应用价值和潜在的未来影响。
📄 摘要(原文)
In diffusion and flow-matching generative models, guidance techniques are widely used to improve sample quality and consistency. Classifier-free guidance (CFG) is the de facto choice in modern systems and achieves this by contrasting conditional and unconditional samples. Recent work explores contrasting negative samples at inference using a weaker model, via strong/weak model pairs, attention-based masking, stochastic block dropping, or perturbations to the self-attention energy landscape. While these strategies refine the generation quality, they still lack reliable control over the granularity or difficulty of the negative samples, and target-layer selection is often fixed. We propose Exponential Moving Average Guidance (EMAG), a training-free mechanism that modifies attention at inference time in diffusion transformers, with a statistics-based, adaptive layer-selection rule. Unlike prior methods, EMAG produces harder, semantically faithful negatives (fine-grained degradations), surfacing difficult failure modes, enabling the denoiser to refine subtle artifacts, boosting the quality and human preference score (HPS) by +0.46 over CFG. We further demonstrate that EMAG naturally composes with advanced guidance techniques, such as APG and CADS, further improving HPS.