Benchmarking neural surrogates on realistic spatiotemporal multiphysics flows

作者: Runze Mao, Rui Zhang, Xuan Bai, Tianhao Wu, Teng Zhang, Zhenyi Chen, Minqi Lin, Bocheng Zeng, Yangchen Xu, Yingxuan Xiang, Haoze Zhang, Shubham Goswami, Pierre A. Dawe, Yifan Xu, Zhenhua An, Mengtao Yan, Xiaoyi Lu, Yi Wang, Rongbo Bai, Haobu Gao, Xiaohang Fang, Han Li, Hao Sun, Zhi X. Chen

分类: cs.LG

发布日期: 2025-12-21 (更新: 2026-02-02)

备注: 52 pages, 20 figures. Code and data available at https://github.com/deepflame-ai/REALM. Companion website and leaderboard at https://realm-bench.org

💡 一句话要点

REALM：多物理场流动神经代理模型的现实基准测试框架

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 多物理场流动 神经代理模型 基准测试 深度学习 计算流体力学

📋 核心要点

现有神经代理模型评估过度依赖简化代理，无法暴露其在现实多物理场流动中的脆弱性。
REALM框架通过提供高保真数据集、标准化协议和多物理场感知预处理，实现对神经代理模型的严格测试。
基准测试揭示了维度、刚度和网格不规则性导致的性能瓶颈，以及架构归纳偏置的重要性。

📝 摘要（中文）

由于多尺度、异构物理过程的严重耦合，预测多物理场动力学在计算上既昂贵又具有挑战性。虽然神经代理模型有望带来范式转变，但该领域目前面临着“掌握的错觉”，正如顶级评论中反复强调的那样：现有的评估过度依赖简化的、低维的代理，无法暴露模型在现实状态下的内在脆弱性。为了弥合这一关键差距，我们提出了REALM（用于多物理场的现实人工智能学习），这是一个严格的基准测试框架，旨在测试神经代理模型在具有挑战性的、应用驱动的反应流上的性能。REALM包含11个高保真数据集，涵盖从规范的多物理场问题到复杂的推进和消防安全场景，以及一个标准化的端到端训练和评估协议，该协议结合了多物理场感知的预处理和稳健的rollout策略。使用此框架，我们系统地对十几种具有代表性的代理模型家族进行了基准测试，包括谱算子、卷积模型、Transformer、逐点算子和图/网格网络，并确定了三个稳健的趋势：（i）由维度、刚度和网格不规则性共同控制的缩放障碍，导致快速增长的rollout误差；（ii）性能主要由架构归纳偏置控制，而不是参数数量；（iii）标称精度指标和物理上可信的行为之间存在持续的差距，其中具有高相关性的模型仍然会错过关键的瞬态结构和积分量。总而言之，REALM揭示了当前神经代理模型在现实多物理场流动方面的局限性，并提供了一个严格的测试平台，以推动下一代物理感知架构的开发。

🔬 方法详解

问题定义：论文旨在解决现有神经代理模型在预测复杂多物理场流动时泛化能力不足的问题。现有方法通常在简化的低维数据集上进行评估，无法真实反映模型在实际应用中的性能。这导致了“掌握的错觉”，即模型在简单场景下表现良好，但在复杂场景下迅速失效。

核心思路：论文的核心思路是构建一个更具挑战性和现实性的基准测试框架，称为REALM。该框架包含一系列高保真多物理场流动数据集，并提供标准化的训练和评估流程，以更全面地评估神经代理模型的性能。通过在REALM上进行基准测试，可以更准确地了解现有模型的局限性，并推动下一代物理感知架构的发展。

技术框架：REALM框架主要包含以下几个部分： 1. 数据集：包含11个高保真多物理场流动数据集，涵盖从规范问题到复杂推进和消防安全场景。 2. 预处理：提供多物理场感知的预处理方法，以提高模型的训练效率和泛化能力。 3. 训练和评估协议：提供标准化的端到端训练和评估流程，包括rollout策略，以确保评估的公平性和可重复性。 4. 基准模型：包含十几种具有代表性的代理模型家族，包括谱算子、卷积模型、Transformer、逐点算子和图/网格网络。

关键创新：REALM框架的关键创新在于其数据集的真实性和复杂性，以及评估协议的标准化和严格性。与以往的基准测试相比，REALM更注重评估模型在现实场景下的泛化能力和物理可信度。此外，REALM还强调了多物理场感知的预处理方法的重要性。

关键设计：REALM框架的关键设计包括： 1. 数据集选择：选择具有代表性的多物理场流动问题，涵盖不同的物理过程和尺度。 2. 数据生成：使用高保真数值模拟方法生成数据集，以保证数据的准确性和可靠性。 3. 评估指标：使用多种评估指标，包括均方误差、相关系数和物理量积分，以全面评估模型的性能。 4. Rollout策略：采用稳健的rollout策略，以评估模型在长时间预测中的稳定性。

🖼️ 关键图片

📊 实验亮点

通过REALM框架对多种神经代理模型进行基准测试，揭示了现有模型在处理高维、高刚性和不规则网格数据时面临的挑战。实验结果表明，模型的性能主要受架构归纳偏置的影响，而非参数数量。此外，即使模型具有较高的相关系数，也可能无法准确捕捉关键的瞬态结构和积分量，表明现有评估指标存在局限性。

🎯 应用场景

该研究成果可广泛应用于各种涉及多物理场流动的工程领域，例如航空航天推进系统设计、燃烧过程优化、火灾安全评估等。通过更准确地预测多物理场动力学，可以加速产品设计周期、降低研发成本，并提高系统性能和安全性。未来，该框架可以扩展到更多领域，例如气候模拟和生物医学工程。

📄 摘要（原文）

Predicting multiphysics dynamics is computationally expensive and challenging due to the severe coupling of multi-scale, heterogeneous physical processes. While neural surrogates promise a paradigm shift, the field currently suffers from an "illusion of mastery", as repeatedly emphasized in top-tier commentaries: existing evaluations overly rely on simplified, low-dimensional proxies, which fail to expose the models' inherent fragility in realistic regimes. To bridge this critical gap, we present REALM (REalistic AI Learning for Multiphysics), a rigorous benchmarking framework designed to test neural surrogates on challenging, application-driven reactive flows. REALM features 11 high-fidelity datasets spanning from canonical multiphysics problems to complex propulsion and fire safety scenarios, alongside a standardized end-to-end training and evaluation protocol that incorporates multiphysics-aware preprocessing and a robust rollout strategy. Using this framework, we systematically benchmark over a dozen representative surrogate model families, including spectral operators, convolutional models, Transformers, pointwise operators, and graph/mesh networks, and identify three robust trends: (i) a scaling barrier governed jointly by dimensionality, stiffness, and mesh irregularity, leading to rapidly growing rollout errors; (ii) performance primarily controlled by architectural inductive biases rather than parameter count; and (iii) a persistent gap between nominal accuracy metrics and physically trustworthy behavior, where models with high correlations still miss key transient structures and integral quantities. Taken together, REALM exposes the limits of current neural surrogates on realistic multiphysics flows and offers a rigorous testbed to drive the development of next-generation physics-aware architectures.

Benchmarking neural surrogates on realistic spatiotemporal multiphysics flows

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理