Colored Noise Diffusion Sampling

📄 arXiv: 2605.30332v1 📥 PDF

作者: Hadar Davidson, Noam Issachar, Sagie Benaim

分类: cs.CV

发布日期: 2026-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出彩色噪声采样(CNS),通过频率解耦能量转移提升扩散模型图像合成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 图像合成 彩色噪声 随机微分方程 频谱偏置 能量转移 频率解耦

📋 核心要点

  1. 现有扩散模型采样方法忽略了模型固有的频谱偏置,导致能量利用效率低下。
  2. 论文提出彩色噪声采样(CNS),通过动态调整噪声的频率分布,实现更高效的能量分配。
  3. 实验表明,CNS在多种扩散模型架构上显著降低了FID,提升了图像生成质量。

📝 摘要(中文)

扩散模型在图像合成领域取得了显著进展,但其生成轨迹本质上表现出频谱偏置,即先解决低频全局结构,后解决高频精细细节。传统的随机微分方程(SDE)求解器未能考虑这种动态特性,在整个过程中简单地注入均匀白噪声,从而错误地使用了有限的能量预算。本文建立了一个数学框架,将SDE推理重新定义为有针对性的、频率解耦的能量转移。基于此框架,我们提出了一种新的、无需训练的随机求解器——彩色噪声采样(CNS)。CNS不是注入均匀白噪声,而是利用动态的、时间步长和频率相关的调度,更有效地将注入的能量分配给结构上未解决的频段。通过积极利用模型固有的频谱偏置,CNS系统地引导生成的分布向真实数据流形靠拢。大量实验表明,作为一种严格的即插即用、推理时采样器替代方案,CNS在各种架构(SiT、JiT、FLUX)上显著优于标准ODE和SDE基线。在ImageNet-256上,与标准采样相比,CNS实现了显著的无引导FID降低,在SiT-XL/2上从8.26提高到6.27,在JiT-B/16上从32.39提高到26.69,在JiT-H/16上从11.88提高到8.31,同时在使用Classifier-Free Guidance时产生一致的相对FID改进。项目页面可在https://hadardavidson.github.io/CNS/上找到。

🔬 方法详解

问题定义:扩散模型在图像生成过程中,通常使用SDE求解器进行采样。然而,现有的SDE求解器通常采用均匀白噪声,忽略了扩散模型固有的频谱偏置特性,即低频信息先被处理,高频信息后被处理。这种均匀噪声注入方式导致能量利用效率低下,影响生成图像的质量。

核心思路:论文的核心思路是重新审视SDE推理过程,将其视为一个有针对性的、频率解耦的能量转移过程。通过分析模型在不同时间步长对不同频率信息的处理能力,动态调整注入噪声的频率分布,使得能量能够更有效地分配到尚未解决的频率分量上。

技术框架:CNS的核心是一个动态的、时间步长和频率相关的噪声调度器。该调度器根据当前时间步长和模型对不同频率信息的处理程度,自适应地调整注入噪声的功率谱密度。整体流程与标准的扩散模型采样流程类似,只是将均匀白噪声替换为由CNS调度器生成的彩色噪声。

关键创新:最重要的创新点在于提出了频率解耦的能量转移概念,并将其应用于扩散模型的采样过程中。与传统的均匀白噪声采样相比,CNS能够更有效地利用能量,从而生成更高质量的图像。

关键设计:CNS的关键设计在于噪声调度器的设计。该调度器需要根据时间步长和模型特性,精确地控制注入噪声的功率谱密度。具体实现中,可以使用预定义的函数或者学习到的函数来生成噪声调度。论文中可能涉及一些超参数,用于控制噪声调度的形状和强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CNS作为一种即插即用的采样器替代方案,在ImageNet-256数据集上显著降低了FID。例如,在SiT-XL/2架构上,CNS将无引导FID从8.26降低到6.27,在JiT-B/16上从32.39降低到26.69,在JiT-H/16上从11.88降低到8.31。这些结果表明CNS能够有效提升扩散模型的图像生成质量。

🎯 应用场景

该研究成果可广泛应用于图像生成、图像编辑、超分辨率等领域。通过提升扩散模型的采样效率和生成质量,CNS有望推动相关应用的发展,例如,在艺术创作、游戏开发、医学影像等领域提供更高质量的内容生成能力,并降低计算成本。

📄 摘要(原文)

Diffusion models achieve state-of-the-art image synthesis, with their generative trajectories fundamentally exhibiting a spectral bias, resolving low-frequency global structures early and high-frequency fine details later. Conventional stochastic differential equation (SDE) solvers fail to account for this dynamic, naively injecting uniform white noise throughout the entire process and misusing the finite energy budget. In this work, we establish a mathematical framework that reconsiders SDE inference as a targeted, frequency-decoupled energy transfer. Leveraging this framework, we introduce Colored Noise Sampling (CNS), a novel, training-free stochastic solver. Rather than injecting uniform white noise, CNS utilizes a dynamic, timestep- and frequency-dependent schedule that more efficiently allocates injected energy toward structurally unresolved frequency bands. By actively exploiting the model's inherent spectral bias, CNS systematically steers the generated distribution toward the true data manifold. Extensive experiments demonstrate that CNS significantly outperforms standard ODE and SDE baselines as a strictly plug-and-play, inference-time sampler substitution across diverse architectures (SiT, JiT, FLUX). Compared to standard sampling on ImageNet-256, CNS achieves substantial unguided FID reductions, improving from 8.26 to 6.27 on SiT-XL/2, 32.39 to 26.69 on JiT-B/16, and 11.88 to 8.31 on JiT-H/16, while yielding consistent relative FID improvements with Classifier-Free Guidance. Project page is available at https://hadardavidson.github.io/CNS/.