M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

作者: Penghui Niu, Taotao Cai, Suqi Zhang, Junhua Gu, Ping Zhang, Qiqi Liu, Jianxin Li

分类: cs.CV

发布日期: 2026-02-23

🔗 代码/项目: GITHUB

💡 一句话要点

M3S-Net：基于多尺度数据的多模态融合网络，用于超短期光伏功率预测

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 光伏功率预测 超短期预测 多模态融合 深度学习 Mamba 时空耦合 多尺度特征提取

📋 核心要点

现有光伏功率预测方法难以捕捉云的细粒度光学特征和多模态数据间复杂的时空耦合关系。
M3S-Net通过多尺度网络提取云边界特征和气象数据周期性，并使用Mamba交互模块实现模态间的深度耦合。
实验表明，M3S-Net在10分钟光伏功率预测中，平均绝对误差相较于现有方法降低了6.2%。

📝 摘要（中文）

太阳辐射固有的间歇性和高频变化，尤其是在快速云传播期间，对高渗透率光伏电网提出了显著的稳定性挑战。虽然多模态预测已成为一种可行的缓解策略，但现有的架构主要依赖于浅层特征连接和二元云分割，因此未能捕获云的细粒度光学特征以及视觉和气象模态之间复杂的时空耦合。为了弥合这一差距，本文提出了一种新的基于多尺度数据的多模态特征融合网络M3S-Net，用于超短期光伏功率预测。首先，多尺度部分通道选择网络利用部分卷积来显式地隔离光学薄云的边界特征，有效地超越了粗粒度二元掩码的精度限制。其次，多尺度序列到图像分析网络采用基于快速傅里叶变换（FFT）的时频表示来解耦不同时间范围内的气象数据的复杂周期性。至关重要的是，该模型包含一个跨模态Mamba交互模块，该模块具有一种新颖的动态C矩阵交换机制。通过交换视觉和时间流之间的状态空间参数，这种设计将一种模态的状态演变建立在另一种模态的上下文之上，从而以线性计算复杂度实现深度结构耦合，从而克服了浅层连接的局限性。在新构建的细粒度光伏功率数据集上的实验验证表明，与最先进的基线相比，M3S-Net在10分钟预测中的平均绝对误差降低了6.2%。数据集和源代码将在https://github.com/she1110/FGPD上提供。

🔬 方法详解

问题定义：论文旨在解决超短期光伏功率预测中，现有方法无法有效融合多模态数据（如气象数据和天空图像）的挑战。现有方法通常采用浅层特征拼接或简单的二元云分割，无法充分利用云的细粒度光学特征以及气象数据中的复杂时序信息，导致预测精度受限。

核心思路：论文的核心思路是设计一个能够有效提取和融合多尺度、多模态特征的网络。通过多尺度部分通道选择网络提取云的边界特征，利用时频分析解耦气象数据的周期性，并使用跨模态Mamba交互模块实现视觉和时间模态的深度耦合。这种设计旨在克服浅层融合的局限性，充分利用多模态数据中的信息。

技术框架：M3S-Net的整体架构包含三个主要模块：1) 多尺度部分通道选择网络：利用部分卷积提取云的边界特征。2) 多尺度序列到图像分析网络：使用FFT将气象数据转换为时频表示。3) 跨模态Mamba交互模块：通过动态C矩阵交换机制，实现视觉和时间模态的深度耦合。整个流程是先分别提取各模态的特征，然后通过Mamba模块进行融合，最后进行功率预测。

关键创新：论文的关键创新在于跨模态Mamba交互模块中的动态C矩阵交换机制。传统的跨模态融合方法通常采用浅层连接或注意力机制，无法实现模态间的深度结构耦合。Mamba模块通过状态空间模型建模序列依赖关系，而动态C矩阵交换机制允许视觉和时间流之间交换状态空间参数，从而使一个模态的状态演变依赖于另一个模态的上下文，实现了更深层次的模态融合。

关键设计：多尺度部分通道选择网络使用不同尺度的卷积核来提取不同尺度的云特征。多尺度序列到图像分析网络使用FFT将气象数据转换为时频表示，并使用卷积神经网络提取时频特征。跨模态Mamba交互模块中的C矩阵是可学习的参数，通过动态交换C矩阵，实现了模态间的信息交互。损失函数采用平均绝对误差（MAE）来衡量预测精度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，M3S-Net在细粒度光伏功率数据集上取得了显著的性能提升。与最先进的基线方法相比，M3S-Net在10分钟预测中的平均绝对误差降低了6.2%。这表明M3S-Net能够更准确地预测超短期光伏功率，具有实际应用价值。

🎯 应用场景

该研究成果可应用于智能电网、光伏电站运维、电力调度等领域。通过提高超短期光伏功率预测的准确性，可以有效降低光伏发电对电网稳定性的影响，提高可再生能源的利用率，并为电力市场的交易和调度提供更可靠的依据。未来可进一步扩展到其他可再生能源的预测，如风电等。

📄 摘要（原文）

The inherent intermittency and high-frequency variability of solar irradiance, particularly during rapid cloud advection, present significant stability challenges to high-penetration photovoltaic grids. Although multimodal forecasting has emerged as a viable mitigation strategy, existing architectures predominantly rely on shallow feature concatenation and binary cloud segmentation, thereby failing to capture the fine-grained optical features of clouds and the complex spatiotemporal coupling between visual and meteorological modalities. To bridge this gap, this paper proposes M3S-Net, a novel multimodal feature fusion network based on multi-scale data for ultra-short-term PV power forecasting. First, a multi-scale partial channel selection network leverages partial convolutions to explicitly isolate the boundary features of optically thin clouds, effectively transcending the precision limitations of coarse-grained binary masking. Second, a multi-scale sequence to image analysis network employs Fast Fourier Transform (FFT)-based time-frequency representation to disentangle the complex periodicity of meteorological data across varying time horizons. Crucially, the model incorporates a cross-modal Mamba interaction module featuring a novel dynamic C-matrix swapping mechanism. By exchanging state-space parameters between visual and temporal streams, this design conditions the state evolution of one modality on the context of the other, enabling deep structural coupling with linear computational complexity, thus overcoming the limitations of shallow concatenation. Experimental validation on the newly constructed fine-grained PV power dataset demonstrates that M3S-Net achieves a mean absolute error reduction of 6.2% in 10-minute forecasts compared to state-of-the-art baselines. The dataset and source code will be available at https://github.com/she1110/FGPD.

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理