Towards Scalable One-Step Generative Modeling for Autoregressive Dynamical System Forecasting
作者: Tianyue Yang, Xiao Xue
分类: cs.LG, physics.flu-dyn
发布日期: 2026-05-07
备注: 42 pages, 15 figures
💡 一句话要点
提出MeLISA模型:一种基于像素空间MeanFlow的自回归生成式代理模型,实现高效长程动力学预测。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 物理驱动机器学习 生成式代理模型 MeanFlow 湍流模拟 时空预测 自回归建模
📋 核心要点
- 现有神经算子在长程湍流预测中易产生漂移,而扩散模型等生成式方法又面临推理计算开销大、噪声调度复杂等挑战。
- 提出MeLISA模型,采用像素空间MeanFlow架构,通过分块随机转换核实现单步推理,无需潜在空间编码或迭代去噪。
- 在Kolmogorov流与湍流通道流实验中,MeLISA在保持高推理效率的同时,显著提升了长程统计特性与预测精度。
📝 摘要(中文)
针对高维物理动力学的高效代理建模,不仅要求短期预测误差低,还需在长程演化中保持统计结构。现有神经算子虽能实现低成本自回归预测,但在湍流环境下易产生漂移;而扩散模型与潜在生成模型虽能表征随机转换,却受限于多步去噪、噪声调度设计及辅助压缩模型的计算开销。本文提出MeLISA(MeanFlow长程不变时空一致性自回归模型),这是一种无需潜在空间的像素级MeanFlow生成式代理模型。MeLISA定义了一种分块随机转换核,通过单次模型评估生成预测块,避免了推理阶段的潜在编码器和迭代扩散求解器。为稳定长程演化,MeLISA结合了窗口一致性MeanFlow目标函数与时间增量一致性损失,以约束多滞后有限增量并保持时空相关性结构。实验表明,MeLISA在Kolmogorov流与湍流通道流基准上,不仅在短期精度和长程统计指标(如能量谱、湍动能)上优于神经算子基线,且推理速度极具竞争力。
🔬 方法详解
问题定义:论文旨在解决高维物理动力学预测中,如何在保证长程演化统计一致性的前提下,实现高效的自回归预测。现有方法在“推理速度”与“长程稳定性”之间难以兼顾。
核心思路:引入MeanFlow框架,将复杂的时空演化建模为像素空间的单步生成过程。通过设计特定的约束机制,确保模型在自回归过程中能够捕捉并维持物理系统的统计结构,而非仅仅拟合短期轨迹。
技术框架:MeLISA采用紧凑型UNet或DiT作为主干网络,直接在像素空间进行操作。模型通过分块方式处理时空序列,利用随机转换核实现从当前状态到下一状态的单步映射,彻底去除了潜在空间编码器和迭代式求解器。
关键创新:核心创新在于“分块随机转换核”的设计,它将复杂的动力学演化简化为单次模型评估。同时,通过窗口一致性与时间增量一致性约束,有效解决了自回归模型常见的误差累积与漂移问题。
关键设计:引入了Window-Consistency MeanFlow目标函数,用于学习部分观测窗口下的条件生成;并设计了Time Increment Consistency损失,通过约束多滞后有限增量,强制模型学习物理系统的时空相关性结构,从而在长程 rollout 中保持物理一致性。
🖼️ 关键图片
📊 实验亮点
MeLISA在256x256 Kolmogorov流和192x192湍流通道流基准上表现优异。相比神经算子基线,其在短期预测精度及能量谱、湍动能等长程统计指标上均有显著提升。模型参数量覆盖3.7M至150M,在保持极高推理速度的同时,展现了极佳的参数扩展性与物理一致性。
🎯 应用场景
该研究在计算流体力学(CFD)、气象预报、气候建模等领域具有重要应用价值。其高效的推理能力使其能够实时模拟复杂湍流系统,为工程设计优化、极端天气预警及大规模物理系统数字孪生提供了一种低成本、高精度的替代方案。
📄 摘要(原文)
Fast surrogate modeling for high-dimensional physical dynamics requires more than low short-term error: useful models must roll out efficiently while preserving the statistical structure of long trajectories. Neural operators provide inexpensive autoregressive forecasts but can drift in turbulent regimes, whereas rolling diffusion and latent generative surrogates can represent stochastic transitions at the cost of multi-step denoising, noise-schedule design, or auxiliary compression models. We propose MeanFlow Long-term Invariant Spatiotemporal Consistency Autoregressive Models (MeLISA), a latent-free autoregressive generative surrogate built on pixel-space MeanFlow. MeLISA defines a blockwise stochastic transition kernel that generates each forecast block with a single model evaluation, avoiding latent encoders and iterative diffusion solvers at inference time. To stabilize long-horizon rollouts, MeLISA combines a Window-Consistency MeanFlow objective that learns conditional spatiotemporal generation from partially observed temporal windows with a Time Increment Consistency loss that constrains multi-lag finite increments and targets temporal-correlation structure. We evaluate MeLISA with compact UNet and scalable DiT backbones on two high-resolution benchmarks, extended 2D Kolmogorov flow at $256 \times 256$ and turbulent channel-flow slice at $192 \times 192$. MeLISA outperforms neural-operator baselines on short-term forecasting accuracy and long-horizon statistical metrics, including energy spectra, turbulent kinetic energy, and mixing-rate-related dynamics, while achieving inference speeds comparable to, and in some cases faster than, neural operators. Compact 3.7-5.7M-parameter variants already deliver strong parameter efficiency, and DiT variants provide a scalable path up to 150M parameters. Overall, MeLISA benefits both rollout efficiency and long-horizon statistical accuracy.