USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

作者: Penghui Niu, Taotao Cai, Suqi Zhang, Junhua Gua, Ping Zhanga, Qiqi Liu, Jianxin Li

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

提出USF-Net，用于地基遥感云图序列外推，提升预测精度与效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 云图外推 时空序列预测 自适应卷积 注意力机制 光伏发电 遥感图像处理 深度学习

📋 核心要点

现有云图外推方法依赖静态卷积核，缺乏动态提取多尺度特征的自适应性。
USF-Net通过自适应大核卷积和低复杂度注意力机制，统一建模时空依赖关系。
在ASI-CIS数据集上，USF-Net显著优于现有方法，平衡了预测精度和计算效率。

📝 摘要（中文）

地基遥感云图序列外推是光伏发电系统发展的关键研究领域。现有方法存在以下局限：(1)主要依赖静态卷积核增强特征信息，缺乏自适应机制动态提取不同分辨率的特征；(2)时间引导不足，导致长程时空依赖建模效果不佳；(3)注意力机制的二次计算成本常被忽略，限制了实际部署效率。为解决这些问题，我们提出了USF-Net，一个统一的时空融合网络，集成了自适应大核卷积和低复杂度注意力机制，并在编码器-解码器框架内结合了时间流信息。具体而言，编码器采用三个基本层提取特征。之后是USTM，包含：(1)配备SSM的SiB，动态捕获多尺度上下文信息；(2)配备TAM的TiB，有效建模长程时间依赖，同时保持计算效率。此外，引入了带有TGM的DSM，以实现时间引导的时空依赖的统一建模。在解码器端，采用DUM来解决常见的“重影效应”，它利用初始时间状态作为注意力算子来保留关键运动特征。作为一项关键贡献，我们还引入并发布了ASI-CIS数据集。在ASI-CIS上的大量实验表明，USF-Net显著优于最先进的方法，在地基云图外推的预测精度和计算效率之间建立了卓越的平衡。

🔬 方法详解

问题定义：地基遥感云图序列外推旨在预测未来一段时间内的云层运动和变化，对于光伏发电系统的稳定运行至关重要。现有方法的痛点在于：1) 无法有效提取不同尺度的云层特征；2) 难以捕捉长程时间依赖关系；3) 注意力机制计算复杂度高，限制了实际应用。

核心思路：USF-Net的核心思路是构建一个统一的时空融合网络，通过自适应大核卷积动态提取多尺度特征，并采用低复杂度的注意力机制建模长程时间依赖关系。同时，利用时间流信息引导时空依赖的建模，从而提高预测精度和效率。

技术框架：USF-Net采用编码器-解码器框架。编码器负责提取输入云图序列的特征，包括三个基本卷积层和一个统一时空融合模块（USTM）。USTM包含空间信息块（SiB）、时间信息块（TiB）和动态时空建模模块（DSM）。解码器利用解码器统一模块（DUM）重建未来的云图序列。

关键创新：USF-Net的关键创新在于：1) 提出了自适应大核卷积，能够动态提取不同尺度的云层特征；2) 设计了低复杂度的注意力机制，有效建模长程时间依赖关系，降低了计算成本；3) 引入了时间引导的时空依赖建模，提高了预测精度。

关键设计：USTM中的SiB配备了选择性扫描模块（SSM），动态捕获多尺度上下文信息。TiB配备了时间注意力模块（TAM），有效建模长程时间依赖。DSM带有时间引导模块（TGM），实现时间引导的时空依赖统一建模。DUM利用初始时间状态作为注意力算子，保留关键运动特征。论文还构建了新的数据集ASI-CIS。

🖼️ 关键图片

📊 实验亮点

在ASI-CIS数据集上的实验结果表明，USF-Net显著优于现有最先进的方法，在预测精度和计算效率之间取得了更好的平衡。具体性能数据在论文中给出，表明USF-Net在云图外推任务上具有显著的优势。

🎯 应用场景

USF-Net可应用于光伏发电系统的短期功率预测，提高电网的稳定性和可靠性。此外，该方法还可扩展到其他时空序列预测任务，如天气预报、交通流量预测等，具有广泛的应用前景和实际价值。未来，可以进一步研究如何将USF-Net与其他模型相结合，以提高预测精度和鲁棒性。

📄 摘要（原文）

Ground-based remote sensing cloud image sequence extrapolation is a key research area in the development of photovoltaic power systems. However, existing approaches exhibit several limitations:(1)they primarily rely on static kernels to augment feature information, lacking adaptive mechanisms to extract features at varying resolutions dynamically;(2)temporal guidance is insufficient, leading to suboptimal modeling of long-range spatiotemporal dependencies; and(3)the quadratic computational cost of attention mechanisms is often overlooked, limiting efficiency in practical deployment. To address these challenges, we propose USF-Net, a Unified Spatiotemporal Fusion Network that integrates adaptive large-kernel convolutions and a low-complexity attention mechanism, combining temporal flow information within an encoder-decoder framework. Specifically, the encoder employs three basic layers to extract features. Followed by the USTM, which comprises:(1)a SiB equipped with a SSM that dynamically captures multi-scale contextual information, and(2)a TiB featuring a TAM that effectively models long-range temporal dependencies while maintaining computational efficiency. In addition, a DSM with a TGM is introduced to enable unified modeling of temporally guided spatiotemporal dependencies. On the decoder side, a DUM is employed to address the common "ghosting effect." It utilizes the initial temporal state as an attention operator to preserve critical motion signatures. As a key contribution, we also introduce and release the ASI-CIS dataset. Extensive experiments on ASI-CIS demonstrate that USF-Net significantly outperforms state-of-the-art methods, establishing a superior balance between prediction accuracy and computational efficiency for ground-based cloud extrapolation. The dataset and source code will be available atthis https URL.

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理