LangPrecip: Language-Aware Multimodal Precipitation Nowcasting

📄 arXiv: 2512.22317v1 📥 PDF

作者: Xudong Ling, Tianxi Huang, Qian Dong, Tao He, Chaorong Li, Guiduo Duan

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-12-26


💡 一句话要点

LangPrecip:提出一种语言感知的多模态降水临近预报框架,有效融合文本信息约束降水演化。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 降水临近预报 多模态融合 语言感知 Rectified Flow 时空预测

📋 核心要点

  1. 现有临近预报方法主要依赖视觉信息,对未来降水运动的约束不足,导致预测结果模糊。
  2. LangPrecip将气象文本作为语义约束,利用Rectified Flow范式在潜在空间中融合文本和雷达信息。
  3. 实验结果表明,LangPrecip在强降雨预测方面显著优于现有方法,CSI指标提升明显。

📝 摘要(中文)

短时降水临近预报是一个内在不确定且欠约束的时空预测问题,尤其是在快速演变和极端天气事件中。现有的生成方法主要依赖于视觉条件,导致未来运动的约束较弱且模糊。我们提出了一个语言感知的多模态临近预报框架(LangPrecip),该框架将气象文本视为降水演变的语义运动约束。通过将临近预报问题建模为Rectified Flow范式下的语义约束轨迹生成问题,我们的方法能够在潜在空间中高效且物理一致地整合文本和雷达信息。我们进一步推出了LangPrecip-160k,一个包含16万个配对雷达序列和运动描述的大规模多模态数据集。在瑞典和MRMS数据集上的实验表明,该方法相对于最先进的方法具有一致的改进,在80分钟的提前期内,强降雨CSI指标上实现了超过60%和19%的提升。

🔬 方法详解

问题定义:现有的降水临近预报方法主要依赖雷达图像序列,缺乏对降水运动趋势的有效约束,尤其是在极端天气情况下,预测结果往往不准确。痛点在于如何有效地利用气象文本信息来提升预测的准确性和可信度。

核心思路:LangPrecip的核心思路是将气象文本信息作为降水演化的语义约束,通过将临近预报问题转化为一个语义约束的轨迹生成问题,从而在预测过程中显式地考虑文本信息的影响。这种方法能够更有效地利用文本信息,提升预测的准确性和物理一致性。

技术框架:LangPrecip的整体框架基于Rectified Flow范式,包含以下主要模块:1) 雷达图像编码器,用于提取雷达图像的特征;2) 文本编码器,用于提取气象文本的语义信息;3) Rectified Flow模型,用于在潜在空间中生成降水轨迹,该轨迹受到雷达图像特征和文本语义信息的约束;4) 解码器,用于将潜在空间中的轨迹解码为最终的降水预测结果。

关键创新:LangPrecip的关键创新在于将气象文本信息融入到降水临近预报过程中,并将其建模为一个语义约束的轨迹生成问题。与现有方法相比,LangPrecip能够更有效地利用文本信息,从而提升预测的准确性和物理一致性。此外,LangPrecip-160k数据集的发布也为该领域的研究提供了新的资源。

关键设计:LangPrecip的关键设计包括:1) 使用预训练的语言模型(如BERT)作为文本编码器,以提取更丰富的语义信息;2) 设计特定的损失函数,以鼓励生成的降水轨迹与文本描述保持一致;3) 采用Rectified Flow模型,以实现高效且稳定的轨迹生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LangPrecip在瑞典和MRMS数据集上取得了显著的性能提升。在80分钟的提前期内,强降雨CSI指标上,LangPrecip相对于现有最先进的方法实现了超过60%和19%的提升。这些结果表明,LangPrecip能够有效地利用文本信息,提升降水临近预报的准确性。

🎯 应用场景

LangPrecip可应用于气象预报部门,为短时降水预报提供更准确、可靠的预测结果,尤其是在极端天气事件中。该技术有助于提高防灾减灾能力,减少因强降水造成的经济损失和人员伤亡。此外,该研究思路也可推广到其他时空预测问题,例如交通流量预测、风力发电预测等。

📄 摘要(原文)

Short-term precipitation nowcasting is an inherently uncertain and under-constrained spatiotemporal forecasting problem, especially for rapidly evolving and extreme weather events. Existing generative approaches rely primarily on visual conditioning, leaving future motion weakly constrained and ambiguous. We propose a language-aware multimodal nowcasting framework(LangPrecip) that treats meteorological text as a semantic motion constraint on precipitation evolution. By formulating nowcasting as a semantically constrained trajectory generation problem under the Rectified Flow paradigm, our method enables efficient and physically consistent integration of textual and radar information in latent space.We further introduce LangPrecip-160k, a large-scale multimodal dataset with 160k paired radar sequences and motion descriptions. Experiments on Swedish and MRMS datasets show consistent improvements over state-of-the-art methods, achieving over 60 \% and 19\% gains in heavy-rainfall CSI at an 80-minute lead time.