Enhanced accuracy through ensembling of randomly initialized auto-regressive models for time-dependent PDEs
作者: Ishan Khurjekar, Indrashish Saha, Lori Graham-Brady, Somdatta Goswami
分类: cs.LG, cs.AI, physics.comp-ph
发布日期: 2025-07-05
备注: 29 Pages
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于随机初始化自回归模型集成的深度学习框架,提升时变偏微分方程求解精度。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 偏微分方程 机器学习 自回归模型 集成学习 时空预测
📋 核心要点
- 传统数值求解器计算量大,机器学习代理模型虽快但自回归推断易累积误差,限制长期精度。
- 提出深度集成框架,并行训练多个随机初始化模型并聚合,利用模型多样性抑制误差传播。
- 在多个PDE系统验证,误差累积显著降低,仅需少量时间步输入,推理速度远超传统求解器。
📝 摘要(中文)
偏微分方程(PDEs)控制的系统需要计算密集型数值求解器来预测时空场的演化。机器学习(ML)代理模型虽然能提供更快的解决方案,但基于ML模型的自回归推断会遭受连续预测带来的误差累积,限制了其长期精度。我们提出了一个深度集成框架来解决这一挑战,其中多个具有随机权重初始化的ML代理模型并行训练,并在推理过程中进行聚合。这种方法利用模型预测的多样性来减轻误差传播,同时保留了自回归策略捕获系统时间相关关系的能力。我们在三个PDE驱动的动态系统上验证了该框架——异质微结构中的应力演化、Gray-Scott反应扩散和行星尺度的浅水系统——证明了与单个模型相比,误差累积随时间推移持续减少。关键是,该方法只需要几个时间步长作为输入,就能实现完整的轨迹预测,且推理时间明显快于数值求解器。我们的结果突出了集成方法在不同物理系统中的鲁棒性,以及它们作为传统求解器的高效和准确替代方案的潜力。该工作的代码可在GitHub上找到。
🔬 方法详解
问题定义:论文旨在解决时变偏微分方程(PDEs)求解中,传统数值方法计算量大,而机器学习代理模型自回归推断时误差累积严重,导致长期预测精度下降的问题。现有机器学习方法在长时间预测中,由于误差的不断累积,无法保证预测结果的准确性,限制了其在实际问题中的应用。
核心思路:论文的核心思路是利用集成学习的思想,通过训练多个具有随机初始化的机器学习模型,并在推理阶段将它们的预测结果进行聚合。这种方法能够利用模型之间的差异性,有效地抑制误差的传播和累积,从而提高长期预测的精度和鲁棒性。通过集成多个“弱”模型,得到一个“强”模型,降低了对单个模型精度的依赖。
技术框架:该框架包含以下主要阶段:1) 数据准备:从PDE数值解中提取训练数据,包括初始状态和少量时间步长的数据。2) 模型训练:并行训练多个具有随机权重初始化的机器学习代理模型。这些模型可以是任何适用于时间序列预测的模型,例如循环神经网络(RNN)或Transformer。3) 集成推理:在推理阶段,将多个模型的预测结果进行聚合,例如通过平均或加权平均。4) 自回归预测:利用聚合后的预测结果作为下一步的输入,进行自回归预测,直到达到所需的预测时间长度。
关键创新:该论文的关键创新在于将集成学习与自回归预测相结合,用于解决时变PDE的求解问题。与传统的单一模型自回归预测相比,该方法能够显著降低误差累积,提高长期预测的精度。此外,随机初始化保证了模型的多样性,使得集成效果更好。该方法只需要少量时间步长的数据作为输入,就能实现完整的轨迹预测,大大提高了计算效率。
关键设计:论文中,模型的具体选择(例如RNN、Transformer等)可以根据具体问题进行调整。损失函数通常采用均方误差(MSE)或类似的回归损失函数。集成方法可以选择简单的平均,也可以采用更复杂的加权平均,权重的确定可以基于模型的预测误差或置信度。随机初始化的范围需要根据具体问题进行调整,以保证模型的多样性。
🖼️ 关键图片
📊 实验亮点
论文在三个PDE驱动的动态系统上进行了验证,包括异质微结构中的应力演化、Gray-Scott反应扩散和行星尺度的浅水系统。实验结果表明,与单个模型相比,该集成方法能够显著降低误差累积,提高长期预测的精度。推理时间远小于数值求解器,例如在行星尺度浅水系统中,推理速度提升了几个数量级。
🎯 应用场景
该研究成果可广泛应用于需要快速、准确求解时变偏微分方程的领域,例如气候模拟、流体动力学、材料科学、生物建模等。通过替代传统的计算密集型数值求解器,可以显著降低计算成本,加速科学研究和工程应用。该方法在实时预测和控制领域也具有潜在的应用价值。
📄 摘要(原文)
Systems governed by partial differential equations (PDEs) require computationally intensive numerical solvers to predict spatiotemporal field evolution. While machine learning (ML) surrogates offer faster solutions, autoregressive inference with ML models suffer from error accumulation over successive predictions, limiting their long-term accuracy. We propose a deep ensemble framework to address this challenge, where multiple ML surrogate models with random weight initializations are trained in parallel and aggregated during inference. This approach leverages the diversity of model predictions to mitigate error propagation while retaining the autoregressive strategies ability to capture the system's time dependent relations. We validate the framework on three PDE-driven dynamical systems - stress evolution in heterogeneous microstructures, Gray-Scott reaction-diffusion, and planetary-scale shallow water system - demonstrating consistent reduction in error accumulation over time compared to individual models. Critically, the method requires only a few time steps as input, enabling full trajectory predictions with inference times significantly faster than numerical solvers. Our results highlight the robustness of ensemble methods in diverse physical systems and their potential as efficient and accurate alternatives to traditional solvers. The codes for this work are available on GitHub (https://github.com/Graham-Brady-Research-Group/AutoregressiveEnsemble_SpatioTemporal_Evolution).