Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning

📄 arXiv: 2509.19305v1 📥 PDF

作者: Yifu Luo, Yongzhe Chang, Xueqian Wang

分类: cs.LG, cs.AI, eess.SP

发布日期: 2025-09-04


💡 一句话要点

提出Wavelet Fourier Diffuser,解决离线强化学习中轨迹频率偏移问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 扩散模型 频率分析 小波变换 傅里叶变换

📋 核心要点

  1. 现有离线强化学习方法主要关注时域特征,忽略了频域特征,导致轨迹频率偏移和性能下降。
  2. WFDiffuser通过离散小波变换将轨迹分解为低频和高频分量,并利用短时傅里叶变换提取频域特征。
  3. 实验表明,WFDiffuser能有效缓解频率偏移,生成更平滑稳定的轨迹,提升决策性能。

📝 摘要(中文)

扩散概率模型在离线强化学习中通过直接建模轨迹序列展现出巨大潜力。然而,现有方法主要关注时域特征,忽略了频域特征,导致频率偏移和性能下降。本文从频域角度研究强化学习问题,观察到仅使用时域特征的方法会引入低频分量的偏移,导致轨迹不稳定和性能下降。为解决此问题,我们提出Wavelet Fourier Diffuser (WFDiffuser),一种基于扩散的新型强化学习框架,它集成了离散小波变换,将轨迹分解为低频和高频分量。为了进一步增强每个分量的扩散建模,WFDiffuser采用短时傅里叶变换和交叉注意力机制来提取频域特征并促进跨频率交互。在D4RL基准上的大量实验结果表明,WFDiffuser有效地缓解了频率偏移,从而产生更平滑、更稳定的轨迹,并提高了决策性能。

🔬 方法详解

问题定义:现有基于扩散模型的离线强化学习方法主要关注轨迹的时域特征,忽略了轨迹在频域上的信息。这导致在学习过程中,轨迹的低频分量发生偏移,使得生成的轨迹不稳定,最终影响强化学习的性能。因此,论文旨在解决离线强化学习中由于忽略频域信息而导致的轨迹频率偏移问题。

核心思路:论文的核心思路是将轨迹分解到频域,分别对低频和高频分量进行建模。通过分析轨迹的频域特征,可以更好地理解轨迹的动态特性,并避免在学习过程中引入不必要的频率偏移。具体来说,使用离散小波变换(DWT)将轨迹分解为低频和高频分量,然后分别对这两个分量进行扩散建模。

技术框架:WFDiffuser的整体框架包括以下几个主要步骤:1) 使用离散小波变换(DWT)将轨迹分解为低频和高频分量。2) 对每个分量,使用短时傅里叶变换(STFT)提取其频域特征。3) 使用扩散模型分别对低频和高频分量进行建模,其中使用交叉注意力机制来促进低频和高频分量之间的信息交互。4) 通过逆扩散过程生成新的轨迹。

关键创新:WFDiffuser的关键创新在于将频域分析引入到基于扩散模型的离线强化学习中。通过将轨迹分解为低频和高频分量,并分别对它们进行建模,WFDiffuser能够更好地捕捉轨迹的动态特性,并避免频率偏移。此外,使用短时傅里叶变换和交叉注意力机制来提取频域特征和促进跨频率交互也是一个重要的创新点。

关键设计:在WFDiffuser中,离散小波变换(DWT)用于将轨迹分解为低频和高频分量。短时傅里叶变换(STFT)用于提取每个分量的频域特征。扩散模型使用标准的扩散模型结构,但针对低频和高频分量分别进行训练。交叉注意力机制用于在扩散模型的每一步中,促进低频和高频分量之间的信息交互。损失函数是标准的扩散模型损失函数,但针对低频和高频分量分别计算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在D4RL基准测试中,WFDiffuser在多个任务上都取得了显著的性能提升。例如,在hopper-medium-replay任务上,WFDiffuser的性能超过了现有最佳方法,并且生成的轨迹更加平滑和稳定。实验结果表明,WFDiffuser能够有效地缓解频率偏移,从而提高决策性能。

🎯 应用场景

WFDiffuser的潜在应用领域包括机器人控制、自动驾驶、游戏AI等。通过学习高质量的轨迹数据,WFDiffuser可以生成更平滑、更稳定的控制策略,从而提高智能体的性能和安全性。该研究的实际价值在于提供了一种新的视角来理解和解决强化学习问题,并为未来的研究提供了新的方向。未来影响可能体现在更高效、更稳定的智能体控制策略的开发。

📄 摘要(原文)

Diffusion probability models have shown significant promise in offline reinforcement learning by directly modeling trajectory sequences. However, existing approaches primarily focus on time-domain features while overlooking frequency-domain features, leading to frequency shift and degraded performance according to our observation. In this paper, we investigate the RL problem from a new perspective of the frequency domain. We first observe that time-domain-only approaches inadvertently introduce shifts in the low-frequency components of the frequency domain, which results in trajectory instability and degraded performance. To address this issue, we propose Wavelet Fourier Diffuser (WFDiffuser), a novel diffusion-based RL framework that integrates Discrete Wavelet Transform to decompose trajectories into low- and high-frequency components. To further enhance diffusion modeling for each component, WFDiffuser employs Short-Time Fourier Transform and cross attention mechanisms to extract frequency-domain features and facilitate cross-frequency interaction. Extensive experiment results on the D4RL benchmark demonstrate that WFDiffuser effectively mitigates frequency shift, leading to smoother, more stable trajectories and improved decision-making performance over existing methods.