Eradicating Negative Transfer in Multi-Physics Foundation Models via Sparse Mixture-of-Experts Routing
作者: Ellwil Sharma, Arastu Sharma
分类: cs.LG, cs.AI, physics.comp-ph
发布日期: 2026-05-14
备注: 5 pages, 4 figures
💡 一句话要点
提出Shodh-MoE,通过稀疏混合专家路由解决多物理场建模中的负迁移问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多物理场建模 负迁移 稀疏混合专家 神经算子 物理信息机器学习
📋 核心要点
- 现有稠密神经算子在多物理场联合训练中存在梯度冲突和优化不稳定等问题,导致负迁移。
- Shodh-MoE通过稀疏混合专家路由,为不同物理机制分配专门的参数路径,同时保留共享专家。
- 实验表明,Shodh-MoE在明渠流和多孔介质流动中均能有效收敛,显著降低验证和物理MSE。
📝 摘要(中文)
科学机器学习(SciML)向通用基础模型扩展受限于负迁移问题:不同偏微分方程(PDE)的同时联合训练会导致梯度冲突、优化不稳定以及稠密神经算子的可塑性损失。特别是,宽带明渠流体动力学和边界主导的多孔介质流动对单一稠密参数路径提出了不兼容的谱和几何要求。本文提出Shodh-MoE,一种用于多物理场传输的稀疏激活潜在Transformer架构。Shodh-MoE作用于由物理信息自编码器压缩的16^3物理潜在变量,该自编码器具有亥姆霍兹风格的内部tokenizer速度参数化,将解码状态限制在无散度速度流形上。该模型保证精确的质量守恒,在128^3网格上实现了约2.8 x 10^-10的物理可验证速度散度(在FP64中进行后验评估)。Top-1软语义路由器动态地将局部潜在patch分配给专家子网络,为不同的物理机制启用专门的参数路径,同时保留共享专家以实现通用对称性。在混合三维物理张量上的20,000步分布式预训练运行中,路由遥测显示了自主域分叉:来自明渠域的保留验证token专门路由到专家0,而多孔介质token专门路由到专家1。该模型在两种状态下同时收敛,实现了2.46 x 10^-5和9.76 x 10^-6的潜在验证MSE,以及2.48 x 10^-6和1.76 x 10^-6的解码物理MSE。这些结果支持稀疏专家路由作为一种实用的架构机制,用于减轻通用神经算子中的多物理场干扰。
🔬 方法详解
问题定义:论文旨在解决多物理场建模中由于不同物理机制的相互干扰而导致的负迁移问题。现有的稠密神经算子在同时处理具有显著差异的物理场时,容易出现梯度冲突、优化不稳定以及可塑性损失,无法有效学习不同物理现象的共性和特性。
核心思路:论文的核心思路是利用稀疏混合专家(MoE)架构,为不同的物理机制分配专门的参数路径,从而避免不同物理场之间的直接干扰。通过动态路由机制,将不同的物理区域分配给不同的专家网络进行处理,使得每个专家网络可以专注于学习特定物理场的特征。同时,保留共享专家以学习通用对称性,从而实现知识的有效迁移。
技术框架:Shodh-MoE的整体架构包括以下几个主要模块:1) 物理信息自编码器:用于将原始物理场数据压缩为低维潜在表示,并限制解码状态在无散度速度流形上,保证质量守恒。2) 稀疏激活潜在Transformer:作为核心处理模块,利用Transformer架构学习潜在表示之间的关系。3) Top-1软语义路由器:根据输入数据的特征,动态地将局部潜在patch分配给不同的专家子网络。4) 专家子网络:每个专家子网络专注于学习特定物理场的特征。
关键创新:论文最重要的技术创新点在于将稀疏混合专家路由机制引入到多物理场建模中,通过动态分配参数路径,有效缓解了不同物理场之间的负迁移问题。与传统的稠密神经算子相比,Shodh-MoE能够更好地学习不同物理场的特征,并实现知识的有效迁移。
关键设计:Shodh-MoE的关键设计包括:1) 物理信息自编码器采用亥姆霍兹风格的速度参数化,保证解码状态的无散度性。2) Top-1软语义路由器根据输入数据的特征,选择一个最合适的专家子网络进行处理。3) 模型采用分布式预训练方式,在混合三维物理张量上进行训练,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Shodh-MoE在混合三维物理张量上的预训练中,实现了自主域分叉,明渠域的token专门路由到专家0,而多孔介质token专门路由到专家1。该模型在两种状态下同时收敛,实现了2.46 x 10^-5和9.76 x 10^-6的潜在验证MSE,以及2.48 x 10^-6和1.76 x 10^-6的解码物理MSE,验证了稀疏专家路由在减轻多物理场干扰方面的有效性。
🎯 应用场景
该研究成果可应用于各种涉及多物理场耦合的科学与工程问题,例如气候模拟、材料设计、生物医学工程等。通过构建通用的多物理场基础模型,可以加速科学发现和工程创新,降低计算成本,并提高预测精度。未来,该方法有望扩展到更复杂的物理系统,并与其他机器学习技术相结合,实现更强大的建模能力。
📄 摘要(原文)
Scaling Scientific Machine Learning (SciML) toward universal foundation models is bottlenecked by negative transfer: the simultaneous co-training of disparate partial differential equation (PDE) regimes can induce gradient conflict, unstable optimization, and plasticity loss in dense neural operators. In particular, broadband open-channel fluid dynamics and boundary-dominated porous media flows impose incompatible spectral and geometric demands on a single dense parameter path. We introduce Shodh-MoE, a sparse-activated latent transformer architecture for multi-physics transport. Shodh-MoE operates on compressed 16^3 physical latents produced by a physics-informed autoencoder with an intra-tokenizer Helmholtz-style velocity parameterization, restricting decoded states to divergence-free velocity manifolds. The model guarantees exact mass conservation, achieving a physically verifiable velocity divergence of ~2.8 x 10^-10 (evaluated post-hoc in FP64) on 128^3 grids. A Top-1 soft-semantic router dynamically assigns localized latent patches to expert subnetworks, enabling specialized parameter paths for distinct physical mechanisms while preserving shared experts for universal symmetries. In a 20,000-step distributed pretraining run over mixed three-dimensional physical tensors, routing telemetry shows autonomous domain bifurcation: held-out validation tokens from the open-channel domain route exclusively to Expert 0, while porous-media tokens route exclusively to Expert 1. The model converges simultaneously across both regimes, achieving latent validation MSEs of 2.46 x 10^-5 and 9.76 x 10^-6, and decoded physical MSEs of 2.48 x 10^-6 and 1.76 x 10^-6. These results support sparse expert routing as a practical architectural mechanism for mitigating multi-physics interference in universal neural operators.