PixelFlowCast: Latent-Free Precipitation Nowcasting via Pixel Mean Flows
作者: Yufeng Zhu, Chunlei Shi, Yongchao Feng, Dan Niu
分类: cs.CV, cs.LG, cs.MA
发布日期: 2026-05-11
备注: 26 pages, 7 figures
💡 一句话要点
提出PixelFlowCast框架,通过像素级均值流实现无潜空间的高效高保真降水临近预报
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 降水临近预报 像素均值流 条件流匹配 时空序列预测 雷达回波 生成式模型
📋 核心要点
- 现有扩散模型推理速度慢,而基于潜空间的流匹配方法因压缩导致高频细节丢失,难以兼顾效率与精度。
- 提出PixelFlowCast两阶段框架,结合确定性粗预测与基于像素均值流(PMF)的细粒度生成,实现无潜空间的高效预测。
- 在SEVIR数据集上验证,该方法在长序列降水预报中显著提升了预测准确性,并保持了极高的推理效率,具备业务化潜力。
📝 摘要(中文)
降水临近预报旨在预测短时雷达回波序列,这对极端天气预警至关重要,其中预测保真度与推理效率是实际部署的核心指标。尽管基于扩散的模型具有强大的生成能力,但其多步采样轨迹导致推理速度缓慢,限制了实用性。条件流匹配(CFM)通过拉直轨迹提升了效率,但通常依赖潜空间压缩,这不可避免地丢失了高频物理细节,降低了细粒度预测质量。为解决这些局限,本文提出了PixelFlowCast,这是一个两阶段概率预测框架,在无需潜空间压缩的前提下实现了高效率与高保真预测。第一阶段通过确定性模型捕捉全局演变趋势;第二阶段利用提出的KANCondNet提取深层时空特征以提供精确的条件引导。基于此,无潜空间的像素均值流(PMF)预测器采用x-预测机制生成高质量预测,在保持快速推理的同时有效保留了细粒度结构。在SEVIR数据集上的实验表明,PixelFlowCast在预测精度和推理效率上均优于主流方法,特别是在长序列预测中表现突出,展现了极强的业务部署潜力。
🔬 方法详解
问题定义:降水临近预报面临“保真度”与“推理效率”的权衡难题。现有扩散模型采样步数多导致推理慢,而基于潜空间(Latent-based)的方法在压缩过程中会损失雷达回波中的细粒度物理结构,导致预报模糊。
核心思路:摒弃潜空间压缩,直接在像素空间进行建模。通过两阶段策略:先由确定性模型捕捉全局演变趋势,再由概率模型进行细粒度修正,从而在保持高保真度的同时实现极简的推理路径。
技术框架:整体分为两阶段:第一阶段利用确定性模型生成粗略预报;第二阶段引入KANCondNet提取深层时空特征,作为条件引导,驱动基于像素均值流(PMF)的预测器,通过x-预测机制直接在像素空间输出最终结果。
关键创新:引入KANCondNet作为条件特征提取器,利用其强大的非线性拟合能力增强时空特征表达;提出Pixel Mean Flows (PMF) 机制,通过少步采样实现像素级的高质量生成,避免了传统潜空间方法带来的信息损耗。
关键设计:采用x-预测(x-prediction)机制替代传统的噪声预测,直接优化像素空间的目标分布;通过确定性模型与概率模型的解耦设计,确保了模型既能捕捉大尺度演变,又能精确还原降水回波的纹理细节。
🖼️ 关键图片
📊 实验亮点
在SEVIR数据集上的实验结果显示,PixelFlowCast在长序列预测任务中显著优于现有的扩散模型及流匹配基线方法。该模型在保持极高推理速度的同时,在结构相似性(SSIM)和均方误差(MSE)等指标上均取得领先,证明了其在处理复杂雷达回波演变时的卓越性能。
🎯 应用场景
该研究主要应用于气象领域的短时临近预报(Nowcasting),特别适用于强对流天气、暴雨等极端天气的实时监测与预警。其高效率与高保真的特性,使其能够直接部署在气象业务系统中,为防灾减灾、航空调度及城市交通管理提供精准的决策支持。
📄 摘要(原文)
Precipitation nowcasting aims to forecast short-term radar echo sequences for extreme weather warning, where both prediction fidelity and inference efficiency are critical for real-world deployment. However, diffusion-based models, despite their strong generative capability, suffer from slow inference due to multi-step sampling trajectories, limiting their practical usability. Conditional Flow Matching (CFM) improves efficiency via straightened trajectories, but relies on latent space compression, which inevitably discards high-frequency physical details and degrades fine-grained prediction quality. To address these limitations, we propose PixelFlowCast, a two-stage probabilistic forecasting framework that achieves both high-efficiency and high-fidelity prediction without latent compression. Specifically, in the first stage, a deterministic model first produces coarse forecasts to capture global evolution trends. In the subsequent stage, the proposed KANCondNet extracts deep spatiotemporal evolution features to provide accurate conditional guidance. Based on this, a latent-free, few-step Pixel Mean Flows (PMF) predictor employs an $x$-prediction mechanism to generate high-quality predictions, effectively preserving fine-grained structures while maintaining fast inference. Experiments on the publicly available SEVIR dataset demonstrate that PixelFlowCast outperforms existing mainstream methods in both prediction accuracy and inference efficiency, particularly for long sequence forecasting, highlighting its strong potential for real-world operational deployment.