BlockGPT: Spatio-Temporal Modelling of Rainfall via Frame-Level Autoregression

作者: Cristian Meo, Varun Sarathchandran, Avijit Majhi, Shao Hung, Carlo Saccardi, Ruben Imhoff, Roberto Deidda, Remko Uijlenhoet, Justin Dauwels

分类: cs.LG, cs.AI

发布日期: 2025-10-07 (更新: 2025-10-22)

💡 一句话要点

BlockGPT：基于帧级别自回归的时空降雨建模，显著提升预测精度与速度。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 降水临近预报 时空建模 自回归模型 Transformer 分批令牌化

📋 核心要点

现有基于令牌的自回归模型存在归纳偏置缺陷和推理速度慢的问题，而扩散模型计算成本高昂，限制了降水临近预报的效率。
BlockGPT通过分批令牌化方法，在每个时间步预测完整二维场，利用帧内自注意力和帧间因果注意力，有效分解时空信息。
实验结果表明，BlockGPT在降水预测精度和事件定位方面优于现有模型，且推理速度提升显著，最高可达31倍。

📝 摘要（中文）

本文提出BlockGPT，一种生成式自回归Transformer，使用分批令牌化（Block）方法，在每个时间步预测完整的二维场（帧）。BlockGPT被设计为一种与模型无关的视频预测范例，通过在每个帧内使用自注意力以及跨帧使用因果注意力来分解时空信息。本文将其应用于降水临近预报。在KNMI（荷兰）和SEVIR（美国）两个降水数据集上，BlockGPT与包括基于令牌的模型（NowcastingGPT）和基于扩散的模型（DiffCast+Phydnet）在内的最先进基线进行了比较。结果表明，BlockGPT在准确性、事件定位（通过分类指标衡量）和推理速度方面均优于基线模型，推理速度提升高达31倍。

🔬 方法详解

问题定义：论文旨在解决降水临近预报问题，即短时间内预测降水地图。现有方法，如基于令牌的自回归模型和扩散模型，分别存在归纳偏置缺陷、推理速度慢以及计算成本高等问题，难以满足实时应用的需求。

核心思路：论文的核心思路是提出一种新的生成式自回归Transformer架构BlockGPT，它通过分批令牌化（Block）方法，将降水数据视为视频帧序列，并在每个时间步预测完整的二维降水场。这种设计旨在克服现有方法的局限性，提高预测精度和推理速度。

技术框架：BlockGPT的整体架构是一个自回归Transformer模型。它首先将输入的降水数据分割成一系列帧，然后使用分批令牌化方法将每个帧转换为令牌序列。接下来，模型在每个帧内使用自注意力机制来捕捉空间相关性，并在帧之间使用因果注意力机制来捕捉时间相关性。最后，模型通过自回归的方式逐帧预测未来的降水场。

关键创新：BlockGPT的关键创新在于其分批令牌化方法和时空注意力机制的结合。分批令牌化方法允许模型直接预测完整的二维降水场，避免了传统令牌化方法可能引入的信息损失。时空注意力机制则能够有效地捕捉降水数据的时空相关性，提高预测精度。

关键设计：BlockGPT的关键设计包括：1）使用Transformer作为基本架构，利用其强大的序列建模能力；2）采用分批令牌化方法，直接预测二维降水场；3）设计帧内自注意力和帧间因果注意力机制，捕捉时空相关性；4）使用交叉熵损失函数进行训练，优化预测结果。

🖼️ 关键图片

📊 实验亮点

BlockGPT在KNMI和SEVIR两个降水数据集上进行了评估，实验结果表明，BlockGPT在预测精度和事件定位方面均优于现有模型。与NowcastingGPT相比，BlockGPT在预测精度上有所提升，并且在推理速度上提升高达31倍。与DiffCast+Phydnet相比，BlockGPT在计算效率上具有显著优势，同时保持了较高的预测精度。

🎯 应用场景

BlockGPT在降水临近预报领域具有广泛的应用前景，可用于极端天气事件的预警和防灾减灾。该模型能够提供更准确、更快速的降水预测，帮助政府和相关机构更好地应对暴雨、洪水等自然灾害，减少人员伤亡和经济损失。此外，该模型还可应用于农业、交通运输等领域，为相关决策提供支持。

📄 摘要（原文）

Predicting precipitation maps is a highly complex spatiotemporal modeling task, critical for mitigating the impacts of extreme weather events. Short-term precipitation forecasting, or nowcasting, requires models that are not only accurate but also computationally efficient for real-time applications. Current methods, such as token-based autoregressive models, often suffer from flawed inductive biases and slow inference, while diffusion models can be computationally intensive. To address these limitations, we introduce BlockGPT, a generative autoregressive transformer using batched tokenization (Block) method that predicts full two-dimensional fields (frames) at each time step. Conceived as a model-agnostic paradigm for video prediction, BlockGPT factorizes space-time by using self-attention within each frame and causal attention across frames; in this work, we instantiate it for precipitation nowcasting. We evaluate BlockGPT on two precipitation datasets, viz. KNMI (Netherlands) and SEVIR (U.S.), comparing it to state-of-the-art baselines including token-based (NowcastingGPT) and diffusion-based (DiffCast+Phydnet) models. The results show that BlockGPT achieves superior accuracy, event localization as measured by categorical metrics, and inference speeds up to 31x faster than comparable baselines.

BlockGPT: Spatio-Temporal Modelling of Rainfall via Frame-Level Autoregression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理