USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation
作者: Penghui Niu, Taotao Cai, Suqi Zhang, Junhua Gua, Ping Zhanga, Qiqi Liu, Jianxin Li
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出USF-Net,用于地基遥感云图序列外推,提升预测精度与效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 云图外推 时空序列预测 自适应卷积 注意力机制 光伏发电 遥感图像处理 深度学习
📋 核心要点
- 现有云图外推方法依赖静态卷积核,缺乏动态提取多尺度特征的自适应性。
- USF-Net通过自适应大核卷积和低复杂度注意力机制,统一建模时空依赖关系。
- 在ASI-CIS数据集上,USF-Net显著优于现有方法,平衡了预测精度和计算效率。
📝 摘要(中文)
地基遥感云图序列外推是光伏发电系统发展的关键研究领域。现有方法存在以下局限:(1)主要依赖静态卷积核增强特征信息,缺乏自适应机制动态提取不同分辨率的特征;(2)时间引导不足,导致长程时空依赖建模效果不佳;(3)注意力机制的二次计算成本常被忽略,限制了实际部署效率。为解决这些问题,我们提出了USF-Net,一个统一的时空融合网络,集成了自适应大核卷积和低复杂度注意力机制,并在编码器-解码器框架内结合了时间流信息。具体而言,编码器采用三个基本层提取特征。之后是USTM,包含:(1)配备SSM的SiB,动态捕获多尺度上下文信息;(2)配备TAM的TiB,有效建模长程时间依赖,同时保持计算效率。此外,引入了带有TGM的DSM,以实现时间引导的时空依赖的统一建模。在解码器端,采用DUM来解决常见的“重影效应”,它利用初始时间状态作为注意力算子来保留关键运动特征。作为一项关键贡献,我们还引入并发布了ASI-CIS数据集。在ASI-CIS上的大量实验表明,USF-Net显著优于最先进的方法,在地基云图外推的预测精度和计算效率之间建立了卓越的平衡。
🔬 方法详解
问题定义:地基遥感云图序列外推旨在预测未来一段时间内的云层运动和变化,对于光伏发电系统的稳定运行至关重要。现有方法的痛点在于:1) 无法有效提取不同尺度的云层特征;2) 难以捕捉长程时间依赖关系;3) 注意力机制计算复杂度高,限制了实际应用。
核心思路:USF-Net的核心思路是构建一个统一的时空融合网络,通过自适应大核卷积动态提取多尺度特征,并采用低复杂度的注意力机制建模长程时间依赖关系。同时,利用时间流信息引导时空依赖的建模,从而提高预测精度和效率。
技术框架:USF-Net采用编码器-解码器框架。编码器负责提取输入云图序列的特征,包括三个基本卷积层和一个统一时空融合模块(USTM)。USTM包含空间信息块(SiB)、时间信息块(TiB)和动态时空建模模块(DSM)。解码器利用解码器统一模块(DUM)重建未来的云图序列。
关键创新:USF-Net的关键创新在于:1) 提出了自适应大核卷积,能够动态提取不同尺度的云层特征;2) 设计了低复杂度的注意力机制,有效建模长程时间依赖关系,降低了计算成本;3) 引入了时间引导的时空依赖建模,提高了预测精度。
关键设计:USTM中的SiB配备了选择性扫描模块(SSM),动态捕获多尺度上下文信息。TiB配备了时间注意力模块(TAM),有效建模长程时间依赖。DSM带有时间引导模块(TGM),实现时间引导的时空依赖统一建模。DUM利用初始时间状态作为注意力算子,保留关键运动特征。论文还构建了新的数据集ASI-CIS。
🖼️ 关键图片
📊 实验亮点
在ASI-CIS数据集上的实验结果表明,USF-Net显著优于现有最先进的方法,在预测精度和计算效率之间取得了更好的平衡。具体性能数据在论文中给出,表明USF-Net在云图外推任务上具有显著的优势。
🎯 应用场景
USF-Net可应用于光伏发电系统的短期功率预测,提高电网的稳定性和可靠性。此外,该方法还可扩展到其他时空序列预测任务,如天气预报、交通流量预测等,具有广泛的应用前景和实际价值。未来,可以进一步研究如何将USF-Net与其他模型相结合,以提高预测精度和鲁棒性。
📄 摘要(原文)
Ground-based remote sensing cloud image sequence extrapolation is a key research area in the development of photovoltaic power systems. However, existing approaches exhibit several limitations:(1)they primarily rely on static kernels to augment feature information, lacking adaptive mechanisms to extract features at varying resolutions dynamically;(2)temporal guidance is insufficient, leading to suboptimal modeling of long-range spatiotemporal dependencies; and(3)the quadratic computational cost of attention mechanisms is often overlooked, limiting efficiency in practical deployment. To address these challenges, we propose USF-Net, a Unified Spatiotemporal Fusion Network that integrates adaptive large-kernel convolutions and a low-complexity attention mechanism, combining temporal flow information within an encoder-decoder framework. Specifically, the encoder employs three basic layers to extract features. Followed by the USTM, which comprises:(1)a SiB equipped with a SSM that dynamically captures multi-scale contextual information, and(2)a TiB featuring a TAM that effectively models long-range temporal dependencies while maintaining computational efficiency. In addition, a DSM with a TGM is introduced to enable unified modeling of temporally guided spatiotemporal dependencies. On the decoder side, a DUM is employed to address the common "ghosting effect." It utilizes the initial temporal state as an attention operator to preserve critical motion signatures. As a key contribution, we also introduce and release the ASI-CIS dataset. Extensive experiments on ASI-CIS demonstrate that USF-Net significantly outperforms state-of-the-art methods, establishing a superior balance between prediction accuracy and computational efficiency for ground-based cloud extrapolation. The dataset and source code will be available atthis https URL.