Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

📄 arXiv: 2510.05278v1 📥 PDF

作者: Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam

分类: cs.LG, cs.CL

发布日期: 2025-10-06


💡 一句话要点

提出Parallel Flipping和Sequence Doubling方法,提升Decoder-only模型在偏微分方程求解中的跨模态适应能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏微分方程求解 跨模态适应 Decoder-only模型 Encoder-only模型 科学机器学习 Parallel Flipping Sequence Doubling

📋 核心要点

  1. 现有跨模态适应方法主要集中于Encoder-only模型,Decoder-only模型在偏微分方程求解任务中表现不佳,且扩展模型规模无法有效提升性能。
  2. 论文提出Parallel Flipping和Sequence Doubling两种新方法,旨在通过模拟双向性来提升Decoder-only模型在偏微分方程求解中的性能。
  3. 实验结果表明,所提出的方法能够有效提升Decoder-only模型在偏微分方程求解任务中的性能,缩小与Encoder-only模型的差距。

📝 摘要(中文)

近年来,大型语言模型在自然语言任务中取得了巨大成功,并且在适应新的模态(例如,科学机器学习任务)方面也显示出巨大的潜力。尽管Decoder-only模型在自然语言处理领域更受欢迎,并且在生成自然语言方面表现出色,但大多数提出的跨模态适应方法都侧重于Encoder-only模型,这就提出了一个问题:模型架构如何影响这些方法?在本文中,我们进行了一系列消融研究来回答这个问题,系统地比较了Encoder-only和Decoder-only模型在基于偏微分方程(PDE)的时变模拟任务中的跨模态适应能力。我们发现,当现有方法未经修改地应用时,Decoder-only模型远不如Encoder-only模型。与其它领域不同,扩展Decoder-only模型也无济于事。为了利用Decoder-only模型在这种背景下的潜力,我们引入了两种新方法,Parallel Flipping和Sequence Doubling,试图在自回归模型中模拟双向性。我们的方法提高了Decoder-only模型在所有任务和所有跨模型适应方法中的整体性能,缩小了与Encoder-only模型性能的差距。我们希望我们的发现能够拓宽用于跨模态适应任务的模型范围,以进一步推动科学机器学习。

🔬 方法详解

问题定义:论文旨在解决Decoder-only模型在偏微分方程(PDE)求解等科学机器学习任务中,跨模态适应能力不足的问题。现有方法主要针对Encoder-only模型设计,直接应用于Decoder-only模型时效果不佳,且简单地扩大Decoder-only模型的规模并不能有效提升性能。这限制了Decoder-only模型在科学计算领域的应用。

核心思路:论文的核心思路是通过模仿双向性来增强Decoder-only模型的跨模态适应能力。Decoder-only模型是自回归模型,天然具有单向性,而PDE求解等任务往往需要考虑时间序列的双向依赖关系。因此,论文提出了Parallel Flipping和Sequence Doubling两种方法,试图在Decoder-only模型中引入双向信息。

技术框架:整体框架包括:1)使用Encoder-only或Decoder-only模型作为基础模型;2)采用不同的跨模态适应方法(如Adapter、LoRA等);3)应用Parallel Flipping或Sequence Doubling方法(仅针对Decoder-only模型);4)在偏微分方程求解任务上进行训练和测试。主要模块包括数据预处理模块、模型训练模块和性能评估模块。

关键创新:论文的关键创新在于提出了Parallel Flipping和Sequence Doubling两种方法,用于增强Decoder-only模型在PDE求解任务中的性能。Parallel Flipping通过并行处理原始序列和反向序列来模拟双向性。Sequence Doubling则通过将原始序列与其反向序列连接起来,并在训练过程中引入特殊token来区分正向和反向序列。

关键设计:Parallel Flipping方法并行处理原始序列和反向序列,并将它们的输出进行融合。Sequence Doubling方法将原始序列与其反向序列连接,并在连接处添加特殊token。损失函数采用标准的交叉熵损失函数。具体的网络结构取决于所选择的基础模型(Encoder-only或Decoder-only)。论文中没有明确说明关键参数设置,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Parallel Flipping和Sequence Doubling方法能够显著提升Decoder-only模型在偏微分方程求解任务中的性能。例如,在使用Adapter方法进行跨模态适应时,应用Parallel Flipping或Sequence Doubling后,Decoder-only模型的性能可以接近甚至超过Encoder-only模型。具体的性能提升幅度取决于任务和所选择的跨模态适应方法,但总体趋势是正向的。

🎯 应用场景

该研究成果可应用于科学计算领域,例如偏微分方程求解、流体动力学模拟、气候预测等。通过提升Decoder-only模型在这些任务中的性能,可以更高效地进行科学研究和工程设计,并为相关领域的实际应用提供更准确的预测和模拟结果。未来,该方法有望推广到其他需要处理时序数据的科学机器学习任务中。

📄 摘要(原文)

Large language models have shown great success on natural language tasks in recent years, but they have also shown great promise when adapted to new modalities, e.g., for scientific machine learning tasks. Even though decoder-only models are more popular within NLP and scale exceedingly well at generating natural language, most proposed approaches for cross-modal adaptation focus on encoder-only models, raising the question of how model architecture affects these approaches. In this paper, we therefore perform a series of ablation studies to answer this question, systematically comparing encoder-only and decoder-only models on cross-modal adaptation for time-dependent simulation tasks based on partial differential equations (PDEs). We find that decoder-only models are far worse than encoder-only models, when existing approaches are applied unmodified. In contrast to several other domains, scaling decoder-only models also does not help. To harness the potential of decoder-only models in this context, we introduce two novel approaches, Parallel Flipping and Sequence Doubling, attempting to mimic bidirectionality in autoregressive models. Both our methods improve overall performance using decoder-only models for all tasks and all cross-model adaptation methods, closing the gap to encoder-only model performance. We hope that our findings broaden the spectrum of models used on cross-modal adaptation tasks to further scientific ML.