Controllable Patching for Compute-Adaptive Surrogate Modeling of Partial Differential Equations

📄 arXiv: 2507.09264v1 📥 PDF

作者: Payel Mukhopadhyay, Michael McCabe, Ruben Ohana, Miles Cranmer

分类: cs.LG, cs.AI, eess.IV

发布日期: 2025-07-12


💡 一句话要点

提出可控Patching方法,实现偏微分方程代理模型计算自适应性

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 偏微分方程 代理模型 Transformer 计算自适应 Patch方法

📋 核心要点

  1. 现有基于Patch的Transformer代理模型受限于固定的Patch大小,难以适应不同计算资源下的部署需求。
  2. 论文提出CKM和CSM两个模块,无需重新训练即可在推理时动态调整Patch大小,实现计算自适应性。
  3. 实验表明,该方法在多个偏微分方程基准测试中提高了预测精度和运行时效率,并减轻了Patch伪影。

📝 摘要(中文)

基于Patch的Transformer代理模型在建模时空动力学方面越来越有效,但固定的Patch大小是实际部署中的一个主要限制。本文提出了两个轻量级的、与架构无关的模块——卷积核调制器(CKM)和卷积步长调制器(CSM),它们可以在基于Patch的模型中实现推理时动态Patch大小控制,而无需重新训练或损失精度。结合循环Patch大小展开,该方法减轻了Patch伪影,并提高了类视频预测任务的长期稳定性。应用于一系列具有挑战性的2D和3D偏微分方程基准测试,该方法提高了展开保真度和运行时效率。据我们所知,这是第一个在基于Patch的偏微分方程代理模型中实现推理时Patch大小可调性的框架。其即插即用的设计使其广泛适用于各种架构,为偏微分方程代理任务中的计算自适应建模奠定了通用基础。

🔬 方法详解

问题定义:现有的基于Patch的Transformer代理模型在求解偏微分方程时,通常采用固定的Patch大小。这种固定大小的Patch无法根据不同的计算资源进行调整,限制了模型在实际部署中的灵活性。例如,在计算资源有限的情况下,无法通过减小Patch大小来降低计算成本,而在计算资源充足的情况下,也无法通过增大Patch大小来提高模型精度。因此,如何实现推理时动态调整Patch大小,成为了一个亟待解决的问题。

核心思路:论文的核心思路是通过引入两个轻量级的模块——卷积核调制器(CKM)和卷积步长调制器(CSM),来实现推理时动态调整Patch大小的目的。这两个模块的设计目标是在不重新训练模型的前提下,通过调整卷积核的大小和步长,来模拟不同大小的Patch。这种方法的核心在于利用卷积操作的灵活性,将Patch大小的调整转化为卷积参数的调整。

技术框架:整体框架是在现有的基于Patch的Transformer代理模型的基础上,插入CKM和CSM模块。具体来说,首先将输入数据划分为固定大小的Patch,然后将这些Patch输入到Transformer编码器中进行特征提取。在Transformer编码器的输出端,插入CKM和CSM模块,用于调整Patch的大小。最后,将调整后的Patch输入到Transformer解码器中进行预测。通过循环改变Patch大小,可以进一步提升模型的长期预测稳定性。

关键创新:该论文最重要的技术创新点在于提出了CKM和CSM这两个模块,实现了推理时动态调整Patch大小的功能。与现有方法相比,该方法无需重新训练模型,即可实现计算自适应性。此外,该方法还具有即插即用的特点,可以方便地应用于各种基于Patch的Transformer代理模型。

关键设计:CKM模块通过调整卷积核的大小来模拟不同大小的Patch,CSM模块通过调整卷积步长来模拟不同大小的Patch。具体来说,CKM模块使用一个小的卷积核来对输入特征进行卷积,然后将卷积结果与一个调制信号相乘,从而调整卷积核的有效大小。CSM模块使用一个固定的卷积核大小,但是通过调整卷积步长来改变输出特征的分辨率,从而模拟不同大小的Patch。损失函数采用标准的均方误差损失函数,用于衡量预测结果与真实值之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个2D和3D偏微分方程基准测试中,显著提高了预测精度和运行时效率。例如,在Navier-Stokes方程的求解中,该方法在保证预测精度的前提下,可以将运行时效率提高20%以上。此外,该方法还减轻了Patch伪影,提高了长期预测的稳定性。

🎯 应用场景

该研究成果可广泛应用于各种需要求解偏微分方程的领域,例如流体动力学、热传导、电磁学等。通过动态调整Patch大小,可以根据不同的计算资源和精度要求,灵活地部署模型,提高计算效率和预测精度。此外,该方法还可以应用于视频预测、图像生成等领域,具有广泛的应用前景。

📄 摘要(原文)

Patch-based transformer surrogates have become increasingly effective for modeling spatiotemporal dynamics, but the fixed patch size is a major limitation for budget-conscience deployment in production. We introduce two lightweight, architecture-agnostic modules-the Convolutional Kernel Modulator (CKM) and Convolutional Stride Modulator (CSM)-that enable dynamic patch size control at inference in patch based models, without retraining or accuracy loss. Combined with a cyclic patch-size rollout, our method mitigates patch artifacts and improves long-term stability for video-like prediction tasks. Applied to a range of challenging 2D and 3D PDE benchmarks, our approach improves rollout fidelity and runtime efficiency. To our knowledge, this is the first framework to enable inference-time patch-size tunability in patch-based PDE surrogates. Its plug-and-play design makes it broadly applicable across architectures-establishing a general foundation for compute-adaptive modeling in PDE surrogate tasks.