WaveSFNet: A Wavelet-Based Codec and Spatial--Frequency Dual-Domain Gating Network for Spatiotemporal Prediction

作者: Xinyong Cai, Runming Xie, Hu Chen, Yuankai Wu

分类: cs.CV

发布日期: 2026-03-24

备注: Accepted to IJCNN 2026

🔗 代码/项目: GITHUB

💡 一句话要点

WaveSFNet：基于小波编解码和空频双域门控网络的时空预测

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 时空预测 小波变换 空频域融合 门控网络 视频预测

📋 核心要点

现有无循环时空预测方法依赖步长卷积或池化，易丢失纹理细节，纯空间算子难以平衡局部与全局。
WaveSFNet结合小波编解码器与空频双域门控转换器，保留高频信息，增强动态建模能力。
实验表明，WaveSFNet在多个数据集上实现了具有竞争力的预测精度，并保持较低的计算复杂度。

📝 摘要（中文）

时空预测学习旨在从历史观测中无监督地预测未来帧，这对于广泛的应用至关重要。关键挑战在于对长期动态进行建模，同时保留高频细节以实现清晰的多步预测。现有的高效无循环框架通常依赖于步长卷积或池化进行采样，这往往会丢弃纹理和边界，而纯粹的空间算子通常难以平衡局部交互与全局传播。为了解决这些问题，我们提出了WaveSFNet，一个高效的框架，它统一了基于小波的编解码器与空频双域门控时空转换器。基于小波的编解码器在下采样和重建过程中保留了高频子带线索。同时，转换器首先注入相邻帧差异以显式增强动态信息，然后执行大核空间局部建模和频域全局调制之间的双域门控融合，以及用于跨通道特征交换的门控通道交互。大量实验表明，WaveSFNet在Moving MNIST、TaxiBJ和WeatherBench上实现了有竞争力的预测精度，同时保持了较低的计算复杂度。我们的代码可在https://github.com/fhjdqaq/WaveSFNet上找到。

🔬 方法详解

问题定义：时空预测旨在根据历史帧预测未来帧。现有方法，特别是基于卷积神经网络的无循环方法，在处理长时依赖和保留高频细节方面存在挑战。步长卷积和池化操作虽然能降低计算复杂度，但容易丢失图像的纹理和边界信息，导致预测结果模糊。纯空间域操作难以同时兼顾局部交互和全局信息传播。

核心思路：WaveSFNet的核心思路是利用小波变换在下采样过程中保留高频信息，并通过空频双域的门控机制，在空间域进行局部建模，在频域进行全局调制，从而更好地捕捉时空动态。相邻帧差异的注入显式地增强了动态信息。

技术框架：WaveSFNet主要包含两个核心模块：基于小波的编解码器和空频双域门控时空转换器。首先，小波编解码器对输入帧进行下采样和重建，保留高频子带信息。然后，时空转换器注入相邻帧差异，并通过空频双域门控融合模块，结合空间域的大核卷积和频域的全局调制，提取时空特征。最后，通过门控通道交互进行跨通道特征交换，生成预测帧。

关键创新：WaveSFNet的关键创新在于以下几点：1) 提出了一种基于小波变换的编解码器，用于在下采样过程中保留高频信息。2) 设计了一种空频双域门控融合机制，能够同时利用空间域的局部信息和频域的全局信息。3) 显式地注入相邻帧差异，增强了动态信息的建模能力。与现有方法相比，WaveSFNet能够在保持较低计算复杂度的同时，更有效地捕捉时空动态和高频细节。

关键设计：小波编解码器采用离散小波变换（DWT）进行分解和重构。空频双域门控融合模块使用大核卷积（例如7x7或更大）进行空间局部建模，并使用傅里叶变换将特征映射到频域进行全局调制。门控机制采用sigmoid函数生成门控权重，控制不同域信息的融合比例。损失函数通常采用L1或L2损失，衡量预测帧与真实帧之间的差异。

🖼️ 关键图片

📊 实验亮点

WaveSFNet在Moving MNIST、TaxiBJ和WeatherBench等数据集上进行了评估，实验结果表明，WaveSFNet在保持较低计算复杂度的前提下，实现了与现有方法具有竞争力的预测精度。例如，在Moving MNIST数据集上，WaveSFNet取得了与现有最优方法相当的性能，同时计算复杂度更低。这些结果验证了WaveSFNet在时空预测任务中的有效性。

🎯 应用场景

WaveSFNet在视频监控、自动驾驶、天气预报等领域具有广泛的应用前景。例如，在视频监控中，可以用于预测监控画面中的异常事件；在自动驾驶中，可以用于预测车辆周围环境的变化；在天气预报中，可以用于预测未来的天气状况。该研究有助于提升相关系统的智能化水平和预测准确性。

📄 摘要（原文）

Spatiotemporal predictive learning aims to forecast future frames from historical observations in an unsupervised manner, and is critical to a wide range of applications. The key challenge is to model long-range dynamics while preserving high-frequency details for sharp multi-step predictions. Existing efficient recurrent-free frameworks typically rely on strided convolutions or pooling for sampling, which tends to discard textures and boundaries, while purely spatial operators often struggle to balance local interactions with global propagation. To address these issues, we propose WaveSFNet, an efficient framework that unifies a wavelet-based codec with a spatial--frequency dual-domain gated spatiotemporal translator. The wavelet-based codec preserves high-frequency subband cues during downsampling and reconstruction. Meanwhile, the translator first injects adjacent-frame differences to explicitly enhance dynamic information, and then performs dual-domain gated fusion between large-kernel spatial local modeling and frequency-domain global modulation, together with gated channel interaction for cross-channel feature exchange. Extensive experiments demonstrate that WaveSFNet achieves competitive prediction accuracy on Moving MNIST, TaxiBJ, and WeatherBench, while maintaining low computational complexity. Our code is available at https://github.com/fhjdqaq/WaveSFNet.

WaveSFNet: A Wavelet-Based Codec and Spatial--Frequency Dual-Domain Gating Network for Spatiotemporal Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理