Marchuk: Efficient Global Weather Forecasting from Mid-Range to Sub-Seasonal Scales via Flow Matching
作者: Arsen Kuzhamuratov, Mikhail Zhirnov, Andrey Kuznetsov, Ivan Oseledets, Konstantin Sobolev
分类: cs.LG
发布日期: 2026-03-25
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Marchuk:基于流匹配的高效全球中长期天气预测模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 天气预测 流匹配 生成模型 Transformer 长期依赖
📋 核心要点
- 传统天气预报模型受大气混沌性影响,在中长期预测(超过15天)中精度不足,是亟待解决的问题。
- Marchuk模型采用生成式潜在流匹配方法,通过学习潜在空间中的天气演变规律,实现更长期的天气预测。
- 实验结果表明,Marchuk模型仅用2.76亿参数,性能可媲美16亿参数的LaDCast,且推理速度更快。
📝 摘要(中文)
由于大气固有的混沌性,传统模型在超过中期范围(约15天)的预测能力受到限制,因此准确的次季节天气预测仍然是一个重大挑战。本文提出了Marchuk,一种用于全球天气预测的生成式潜在流匹配模型,其时间跨度从中等到次季节尺度,预测范围可达30天。Marchuk以当前天气图为条件,并在学习到的潜在空间中自回归地预测后续几天的天气图。我们用可训练的位置嵌入替换了旋转位置编码(RoPE),并扩展了时间上下文窗口,从而增强了模型在潜在预测期间表示和传播长期时间依赖性的能力。Marchuk具有两个关键优势:高计算效率和强大的预测性能。尽管其紧凑的架构仅包含2.76亿个参数,但该模型实现了与LaDCast(一个包含16亿个参数的更大模型)相当的性能,同时以明显更高的推理速度运行。我们开源了我们的推理代码和模型。
🔬 方法详解
问题定义:论文旨在解决中长期(最长30天)全球天气预测问题。现有方法,特别是传统数值天气预报模型,由于大气混沌性,预测误差会随着时间推移迅速累积,导致长期预测精度显著下降。此外,现有深度学习模型通常参数量巨大,计算成本高昂。
核心思路:Marchuk的核心思路是利用流匹配模型学习天气演变的潜在空间表示,并在该潜在空间中进行预测。通过将天气数据映射到低维潜在空间,模型可以更好地捕捉天气系统的长期依赖关系,从而提高预测精度。同时,流匹配模型具有良好的生成能力,可以生成更逼真的天气预测结果。
技术框架:Marchuk模型主要包含以下几个模块:1) 编码器:将当前天气图编码到潜在空间;2) 潜在空间预测器:基于流匹配模型,在潜在空间中自回归地预测未来几天的天气状态;3) 解码器:将潜在空间中的天气状态解码为实际的天气图。模型使用Transformer架构作为潜在空间预测器,并采用可训练的位置嵌入和扩展的时间上下文窗口来增强模型对长期时间依赖性的建模能力。
关键创新:Marchuk的关键创新在于以下几点:1) 采用流匹配模型进行天气预测,能够更好地捕捉天气系统的长期依赖关系;2) 使用可训练的位置嵌入代替旋转位置编码,并扩展时间上下文窗口,进一步增强了模型对长期时间依赖性的建模能力;3) 模型结构紧凑,参数量较小,计算效率高。
关键设计:Marchuk模型使用Transformer架构作为潜在空间预测器,并采用以下关键设计:1) 可训练的位置嵌入:相比于旋转位置编码,可训练的位置嵌入能够更好地适应天气数据的特点;2) 扩展的时间上下文窗口:通过增加模型能够观察到的历史天气数据,可以提高模型对长期时间依赖性的建模能力;3) 流匹配损失函数:用于训练潜在空间预测器,使得模型能够学习到天气演变的潜在空间表示。
🖼️ 关键图片
📊 实验亮点
Marchuk模型在30天天气预测任务上取得了显著成果。实验结果表明,Marchuk模型仅用2.76亿参数,性能可媲美16亿参数的LaDCast模型,并且推理速度更快。这表明Marchuk模型在计算效率和预测精度之间取得了良好的平衡。
🎯 应用场景
Marchuk模型可应用于中长期天气预报,为农业、交通运输、能源等领域提供决策支持。例如,农民可以根据预测结果调整种植计划,交通部门可以提前做好应对恶劣天气的准备,能源公司可以优化电力调度。此外,该模型还可以用于气候变化研究,帮助科学家更好地理解气候系统的演变规律。
📄 摘要(原文)
Accurate subseasonal weather forecasting remains a major challenge due to the inherently chaotic nature of the atmosphere, which limits the predictive skill of conventional models beyond the mid-range horizon (approximately 15 days). In this work, we present \textit{Marchuk}, a generative latent flow-matching model for global weather forecasting spanning mid-range to subseasonal timescales, with prediction horizons of up to 30 days. Marchuk conditions on current-day weather maps and autoregressively predicts subsequent days' weather maps within the learned latent space. We replace rotary positional encodings (RoPE) with trainable positional embeddings and extend the temporal context window, which together enhance the model's ability to represent and propagate long-range temporal dependencies during latent forecasting. Marchuk offers two key advantages: high computational efficiency and strong predictive performance. Despite its compact architecture of only 276 million parameters, the model achieves performance comparable to LaDCast, a substantially larger model with 1.6 billion parameters, while operating at significantly higher inference speeds. We open-source our inference code and model at: https://v-gen-ai.github.io/Marchuk/