AOT-POT: Adaptive Operator Transformation for Large-Scale PDE Pre-training

📄 arXiv: 2605.15793v1 📥 PDF

作者: Qitan Lv, Hong Wang, Zhongkai Hao, Wen Wu, Xuenan Xu, Bowen Zhou, Feng Wu, Chao Zhang

分类: cs.LG

发布日期: 2026-05-15


💡 一句话要点

提出AOT-POT,通过自适应算子变换实现大规模PDE预训练,显著提升模型泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏微分方程 神经算子 预训练 自适应算子变换 科学机器学习

📋 核心要点

  1. 多PDE预训练面临解算子的复杂性和结构多样性挑战,现有方法主要依赖增加模型容量,忽略了算子本身的变换。
  2. AOT-POT的核心思想是将复杂解算子转化为更简单、对齐性更好的形式,通过自适应变换使单个模型逼近整个算子族。
  3. 实验表明,AOT-POT在12个PDE基准上达到SOTA,仅增加少量参数,显著降低L2误差,并提升了领域内外PDE的泛化能力。

📝 摘要(中文)

本文提出了一种用于大规模偏微分方程(PDE)预训练的自适应算子变换方法AOT-POT。针对PDE解算子固有的复杂性和结构多样性,AOT-POT不像现有方法那样仅增加模型容量,而是借鉴数值分析的思想,将复杂多样的解算子转化为更简单、对齐性更好的形式,从而更容易进行联合建模。AOT-POT通过扩展隐藏层表示为多个并行流,自适应地聚合和重新分配这些流,并通过Sinkhorn投影的双重随机矩阵混合流,将不同的解算子重塑为统一的形式。实验结果表明,AOT-POT仅增加3%的参数量,就在12个PDE基准测试中取得了最先进的性能,相对L2误差最多降低77.6%(平均40.9%)。在领域内PDE上微调AOT-POT可进一步降低高达92%的L2误差,在领域外PDE上降低高达89%的L2误差,证明自适应算子变换是提升PDE基础模型的有效途径。

🔬 方法详解

问题定义:现有方法在进行大规模PDE预训练时,主要通过增加模型容量来拟合各种复杂的解算子。然而,不同PDE的解算子具有显著的复杂性和结构差异,直接增加模型容量难以有效捕捉这些差异,导致模型泛化能力受限。因此,如何有效地处理不同PDE解算子的多样性,是当前PDE预训练面临的关键问题。

核心思路:AOT-POT的核心思路是借鉴经典数值分析中的变换思想,将复杂且多样的解算子转化为更简单、对齐性更好的形式。通过对解算子进行变换,使得原本难以直接建模的复杂算子,能够被统一的神经网络结构所逼近。这种自适应的变换能够根据不同的PDE类型进行调整,从而使单个神经网络能够近似整个算子族。

技术框架:AOT-POT基于Operator Transformer架构,其主要流程包括:首先,将输入的隐藏层表示扩展为多个并行流;然后,在每个子层之前和之后,自适应地聚合和重新分配这些流;最后,通过Sinkhorn投影的双重随机矩阵混合这些流。这些机制共同作用,将不同的解算子重塑为统一的形式,从而能够被单个架构有效地建模。

关键创新:AOT-POT的关键创新在于提出了自适应算子变换(Adaptive Operator Transformation)的概念,并将其应用于PDE预训练。与现有方法直接增加模型容量不同,AOT-POT通过对解算子进行变换,降低了建模的难度,从而提高了模型的泛化能力。这种自适应变换能够根据不同的输入进行调整,使得模型能够更好地适应不同的PDE类型。

关键设计:AOT-POT的关键设计包括:1) 使用多个并行流来表示隐藏层信息,从而能够更好地捕捉解算子的复杂性;2) 使用自适应聚合和重新分配机制,动态地调整不同流之间的信息交互;3) 使用Sinkhorn投影的双重随机矩阵来混合流,保证训练的稳定性。此外,AOT-POT还采用了Operator Transformer的架构,利用其强大的建模能力来逼近变换后的解算子。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AOT-POT在12个PDE基准测试中取得了SOTA性能,仅增加3%的参数量,相对L2误差平均降低40.9%,最高降低77.6%。在领域内PDE上微调后,L2误差降低高达92%,在领域外PDE上降低高达89%,表明AOT-POT具有强大的泛化能力和迁移学习能力。这些结果证明了自适应算子变换在PDE预训练中的有效性。

🎯 应用场景

AOT-POT在科学计算领域具有广泛的应用前景,可用于构建通用的PDE代理模型,加速科学发现和工程设计。例如,可以应用于流体力学、热传导、电磁学等领域,实现对复杂物理过程的快速预测和仿真,从而降低研发成本,缩短研发周期。此外,AOT-POT还可以作为PDE求解器的预训练模型,提升求解器的精度和效率。

📄 摘要(原文)

Pre-training neural operators on diverse partial differential equation (PDE) datasets has emerged as a promising direction for building general-purpose surrogate models in scientific machine learning. However, the inherent complexity and structural diversity of PDE solution operators make multi-PDE pre-training fundamentally challenging. Existing methods mainly address this by increasing model capacity, while leaving the target solution operators unchanged. Inspired by classical numerical analysis, we instead propose to transform complex and diverse solution operators into simpler, better-aligned forms that are easier to model jointly. Since the optimal transformation varies across PDE types, it must be adaptive and input-dependent, allowing a single neural operator to approximate an entire family of operators. We instantiate this idea as AOT-POT (adaptive operator-transformation for pre-training operator transformer), which expands hidden representations into multiple parallel streams, adaptively aggregates and redistributes them before and after each sub-layer, and mixes streams through Sinkhorn-projected doubly stochastic matrices for stable training. These mechanisms together reshape diverse solution operators into a unified form that can be effectively modeled by a single architecture. Empirically, AOT-POT achieves state-of-the-art performance on 12 PDE benchmarks with only 3\% additional parameters, reducing relative L2 error by up to 77.6\% (40.9\% on average). Fine-tuning AOT-POT further reduces L2 error by up to 92\% on in-domain PDEs and 89\% on out-of-domain PDEs (unseen types during pre-training), demonstrating that adaptive operator transformation is an effective and complementary direction for advancing PDE foundation models beyond simply scaling model capacity.