FreSca: Scaling in Frequency Space Enhances Diffusion Models

📄 arXiv: 2504.02154v3 📥 PDF

作者: Chao Huang, Susan Liang, Yunlong Tang, Jing Bi, Li Ma, Yapeng Tian, Chenliang Xu

分类: cs.CV

发布日期: 2025-04-02 (更新: 2025-05-29)

备注: Project page: https://wikichao.github.io/FreSca/


💡 一句话要点

FreSca:频域空间缩放增强扩散模型,实现精细解耦控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 频率空间 图像生成 图像编辑 解耦控制

📋 核心要点

  1. 现有潜在扩散模型难以对图像的全局结构和精细细节进行解耦控制,限制了生成质量和编辑能力。
  2. FreSca通过分析噪声差异的频率特性,提出在频域空间独立缩放低频和高频分量,实现精细控制。
  3. 实验表明,FreSca无需重新训练或修改架构,即可提升图像生成、编辑、深度估计和视频合成等任务的性能。

📝 摘要(中文)

潜在扩散模型(LDMs)在各种图像任务中取得了显著成功,但要实现对全局结构与精细细节的细粒度、解耦控制仍然具有挑战性。本文探索了潜在扩散模型中基于频率的控制方法。我们首先系统地分析了像素空间、VAE潜在空间和内部LDM表示中的频率特征。这表明,从每个步骤t的无分类器指导中导出的“噪声差异”项,是用于操作的独特有效且语义丰富的目标。基于这一见解,我们引入了FreSca,这是一种新颖的即插即用框架,它将噪声差异分解为低频和高频分量,并通过空间或基于能量的截止对其应用独立的缩放因子。本质上,FreSca无需任何模型重新训练或架构更改即可运行,从而提供模型和任务无关的控制。我们证明了其在改进多种架构(例如,SD3,SDXL)上的生成质量和结构强调方面的多功能性和有效性,并应用于包括图像生成、编辑、深度估计和视频合成等应用,从而在LDM中释放了表达控制的新维度。

🔬 方法详解

问题定义:现有潜在扩散模型(LDMs)在图像生成、编辑等任务中表现出色,但难以实现对图像全局结构和精细细节的精细控制。用户往往难以独立调整图像的整体布局和局部纹理,导致生成结果缺乏灵活性和可控性。现有方法通常需要复杂的模型修改或额外的训练,成本较高。

核心思路:FreSca的核心思路是利用频率信息来解耦图像的全局结构和细节。通过分析发现,LDM中的“噪声差异”项包含了丰富的语义信息,并且不同频率分量对应着不同的图像特征。因此,可以通过独立缩放噪声差异的低频和高频分量,分别控制图像的全局结构和细节。

技术框架:FreSca是一个即插即用的框架,可以应用于各种LDM架构,无需重新训练或修改模型结构。其主要流程包括:1) 从LDM中提取噪声差异项;2) 将噪声差异项分解为低频和高频分量;3) 对低频和高频分量应用独立的缩放因子;4) 将缩放后的频率分量重新组合,并将其输入到LDM中进行后续处理。

关键创新:FreSca的关键创新在于利用频率信息来解耦图像的全局结构和细节,并通过独立缩放噪声差异的频率分量来实现精细控制。与现有方法相比,FreSca无需重新训练或修改模型结构,具有更高的灵活性和通用性。此外,FreSca还提出了一种基于能量的截止方法,可以更有效地分离低频和高频分量。

关键设计:FreSca的关键设计包括:1) 使用傅里叶变换将噪声差异项分解为频率分量;2) 使用空间或基于能量的截止来分离低频和高频分量;3) 使用独立的缩放因子来控制低频和高频分量的强度;4) 通过逆傅里叶变换将频率分量重新组合为空间域表示。缩放因子的选择可以根据具体任务进行调整,以实现最佳的生成效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FreSca在多个LDM架构(如SD3、SDXL)和任务上进行了验证,结果表明其能够有效提高生成质量和结构强调。例如,在图像生成任务中,FreSca能够生成更清晰、更逼真的图像,并且能够更好地控制图像的全局结构和细节纹理。在图像编辑任务中,FreSca能够实现更精确的编辑效果,并且能够避免引入不必要的伪影。

🎯 应用场景

FreSca具有广泛的应用前景,可用于图像生成、图像编辑、深度估计、视频合成等领域。例如,在图像生成中,用户可以使用FreSca来控制生成图像的整体布局和细节纹理。在图像编辑中,用户可以使用FreSca来修改图像的结构或细节,而不会影响其他部分。在视频合成中,FreSca可以用于生成具有精细细节和流畅运动的视频。

📄 摘要(原文)

Latent diffusion models (LDMs) have achieved remarkable success in a variety of image tasks, yet achieving fine-grained, disentangled control over global structures versus fine details remains challenging. This paper explores frequency-based control within latent diffusion models. We first systematically analyze frequency characteristics across pixel space, VAE latent space, and internal LDM representations. This reveals that the "noise difference" term, derived from classifier-free guidance at each step t, is a uniquely effective and semantically rich target for manipulation. Building on this insight, we introduce FreSca, a novel and plug-and-play framework that decomposes noise difference into low- and high-frequency components and applies independent scaling factors to them via spatial or energy-based cutoffs. Essentially, FreSca operates without any model retraining or architectural change, offering model- and task-agnostic control. We demonstrate its versatility and effectiveness in improving generation quality and structural emphasis on multiple architectures (e.g., SD3, SDXL) and across applications including image generation, editing, depth estimation, and video synthesis, thereby unlocking a new dimension of expressive control within LDMs.