PuYun-LDM: A Latent Diffusion Model for High-Resolution Ensemble Weather Forecasts

📄 arXiv: 2602.11807v1 📥 PDF

作者: Lianjun Wu, Shengchen Zhu, Yuxuan Liu, Liuyu Kai, Xiaoduan Feng, Duomin Wang, Wenshuo Liu, Jingxuan Zhang, Kelvin Li, Bin Wang

分类: cs.AI

发布日期: 2026-02-12


💡 一句话要点

PuYun-LDM:一种用于高分辨率集合天气预报的潜在扩散模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在扩散模型 集合天气预报 高分辨率预测 3D掩码自编码器 变量感知频率建模

📋 核心要点

  1. 高分辨率天气预报中,潜在扩散模型面临扩散性不足的挑战,现有方法难以有效建模气象数据的复杂分布。
  2. 论文提出PuYun-LDM,结合3D-MAE编码天气演化特征和VA-MFM进行变量感知频谱正则化,增强模型扩散性。
  3. 实验表明,PuYun-LDM在短期预报中优于ENS,长期预报与之相当,且能在单GPU上快速生成高分辨率预报。

📝 摘要(中文)

潜在扩散模型(LDMs)在高分辨率(<=0.25°)集合天气预报中面临有限的扩散性问题,扩散性描述了潜在数据分布被扩散过程建模的难易程度。与自然图像领域不同,气象场缺乏任务无关的基础模型和显式的语义结构,使得基于VFM的正则化方法不适用。此外,现有的基于频率的方法在同质性假设下,对所有通道施加相同的频谱正则化,导致多元气象数据中变量间频谱异质性下的正则化强度不均匀。为了解决这些挑战,我们提出了一种3D掩码自编码器(3D-MAE),它将天气状态演化特征编码为扩散模型的额外条件,以及一种变量感知掩码频率建模(VA-MFM)策略,该策略基于每个变量的频谱能量分布自适应地选择阈值。综上,我们提出了PuYun-LDM,它增强了潜在扩散性,并在较短的提前期内实现了优于ENS的性能,同时在较长的预测时效内与ENS相当。PuYun-LDM在单个NVIDIA H200 GPU上,用五分钟生成一个具有6小时时间分辨率的15天全球预报,并且可以并行高效地生成集合预报。

🔬 方法详解

问题定义:论文旨在解决高分辨率集合天气预报中,潜在扩散模型(LDMs)扩散性不足的问题。现有方法,如基于VFM的正则化和频率域正则化,无法有效应用于气象数据,因为气象数据缺乏预训练的基础模型和显式语义结构,且变量间存在频谱异质性。

核心思路:论文的核心思路是通过引入天气状态演化特征作为条件,并进行变量感知的频谱正则化,来增强潜在扩散模型的扩散性。通过3D-MAE学习天气演化特征,并利用VA-MFM自适应地进行频谱正则化,从而更好地建模复杂的气象数据分布。

技术框架:PuYun-LDM的整体框架包括以下几个主要模块:1) 3D-MAE:用于编码天气状态演化特征,作为扩散模型的额外条件输入。2) 潜在扩散模型(LDM):基于编码后的潜在空间进行扩散和逆扩散过程,生成天气预报。3) 变量感知掩码频率建模(VA-MFM):用于对潜在空间进行频谱正则化,增强模型的扩散性。整个流程是先用3D-MAE提取特征,然后将特征作为条件输入LDM进行训练和预测,同时使用VA-MFM进行正则化。

关键创新:论文的关键创新在于:1) 提出了一种3D-MAE来编码天气状态演化特征,为扩散模型提供更丰富的信息。2) 提出了一种变量感知掩码频率建模(VA-MFM)策略,能够根据每个变量的频谱能量分布自适应地选择阈值,从而实现更有效的频谱正则化。与现有方法相比,VA-MFM能够更好地处理多元气象数据中变量间的频谱异质性。

关键设计:3D-MAE的网络结构细节未知,但其目标是学习天气状态的时空演化特征。VA-MFM的关键在于如何根据每个变量的频谱能量分布自适应地选择阈值。具体的损失函数设计和扩散模型的参数设置在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PuYun-LDM在短期预报中实现了优于ENS的性能,同时在较长的预测时效内与ENS相当。该模型能够在单个NVIDIA H200 GPU上,用五分钟生成一个具有6小时时间分辨率的15天全球预报,并且可以并行高效地生成集合预报。具体的性能提升幅度未知,但结果表明该方法在效率和精度上都具有优势。

🎯 应用场景

该研究成果可应用于改进高分辨率集合天气预报,提高短期预报的准确性,为农业、交通、能源等领域提供更可靠的气象信息。通过并行计算,可以快速生成集合预报,为灾害预警和应急响应提供支持。未来,该方法有望扩展到其他地球科学领域,如气候预测和海洋预报。

📄 摘要(原文)

Latent diffusion models (LDMs) suffer from limited diffusability in high-resolution (<=0.25°) ensemble weather forecasting, where diffusability characterizes how easily a latent data distribution can be modeled by a diffusion process. Unlike natural image fields, meteorological fields lack task-agnostic foundation models and explicit semantic structures, making VFM-based regularization inapplicable. Moreover, existing frequency-based approaches impose identical spectral regularization across channels under a homogeneity assumption, which leads to uneven regularization strength under the inter-variable spectral heterogeneity in multivariate meteorological data. To address these challenges, we propose a 3D Masked AutoEncoder (3D-MAE) that encodes weather-state evolution features as an additional conditioning for the diffusion model, together with a Variable-Aware Masked Frequency Modeling (VA-MFM) strategy that adaptively selects thresholds based on the spectral energy distribution of each variable. Together, we propose PuYun-LDM, which enhances latent diffusability and achieves superior performance to ENS at short lead times while remaining comparable to ENS at longer horizons. PuYun-LDM generates a 15-day global forecast with a 6-hour temporal resolution in five minutes on a single NVIDIA H200 GPU, while ensemble forecasts can be efficiently produced in parallel.