SciML Agents: Write the Solver, Not the Solution

📄 arXiv: 2509.09936v1 📥 PDF

作者: Saarth Gaonkar, Xiang Zheng, Haocheng Xi, Rishabh Tiwari, Kurt Keutzer, Dmitriy Morozov, Michael W. Mahoney, Amir Gholami

分类: cs.LG, math.NA

发布日期: 2025-09-12


💡 一句话要点

SciML Agents:利用LLM生成求解器代码,解决科学计算任务中的高精度和鲁棒性难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学机器学习 大型语言模型 常微分方程 数值计算 代码生成

📋 核心要点

  1. 现有科学机器学习方法直接预测目标值,但在科学计算任务中难以保证高精度和鲁棒性。
  2. 该论文提出利用LLM生成代码,调用成熟的数值算法求解ODE,将问题转化为领域感知的求解器选择。
  3. 构建了诊断数据集和大规模ODE基准,评估了不同LLM在生成可执行、数值有效的求解器代码方面的能力。

📝 摘要(中文)

近期的科学机器学习工作试图通过神经网络直接预测目标值来解决科学任务(例如,物理信息神经网络、神经ODE、神经算子等),但实现高精度和鲁棒性一直具有挑战性。本文探索了一种替代方案:使用LLM编写利用数十年数值算法的代码。这减轻了学习解函数的负担,转而关注领域感知的数值选择。本文探讨了LLM是否可以充当SciML agents,给定自然语言ODE描述,生成科学上合适的、可运行的代码,选择合适的求解器(刚性与非刚性),并执行稳定性检查。目前没有基准来衡量科学计算任务的这种能力。因此,本文首先引入了两个新的数据集:一个对抗性的“误导性”诊断数据集;以及一个包含1,000个不同ODE任务的大规模基准。诊断集包含表面上看起来像是刚性的问题,需要代数简化来证明非刚性;大规模基准涵盖刚性和非刚性ODE机制。本文沿着两个轴评估了开源和闭源LLM模型:(i)无引导与领域特定知识引导的提示;(ii)现成的与微调的变体。本文针对参考解决方案衡量了可执行性和数值有效性。研究发现,通过足够的上下文和引导提示,较新的指令遵循模型在这两个标准上都实现了高精度。在许多情况下,最近的开源系统在没有微调的情况下表现出色,而较旧或较小的模型仍然受益于微调。总的来说,初步结果表明,仔细的提示和微调可以产生一个专门的LLM agent,能够可靠地解决简单的ODE问题。

🔬 方法详解

问题定义:现有科学机器学习方法,如物理信息神经网络,在求解微分方程时,需要神经网络直接学习解函数,这在复杂问题中难以保证精度和鲁棒性。现有方法缺乏对数值算法的有效利用,且缺乏针对LLM在科学计算领域能力的基准测试。

核心思路:该论文的核心思路是利用LLM作为SciML Agent,将求解微分方程的任务转化为生成可执行的、调用成熟数值算法的代码。通过自然语言描述ODE,LLM负责选择合适的求解器(如刚性/非刚性求解器)并进行稳定性检查,从而避免直接学习复杂的解函数。

技术框架:整体框架包括以下几个阶段:1. 输入:接收自然语言描述的ODE问题。2. LLM Agent:利用LLM生成Python代码,该代码调用数值计算库(如SciPy)中的ODE求解器。3. 执行:执行生成的代码,得到数值解。4. 评估:将数值解与参考解进行比较,评估代码的可执行性和数值有效性。论文还构建了两个数据集用于评估:一个是诊断数据集,用于测试LLM处理“误导性”问题的能力;另一个是包含1000个ODE任务的大规模基准,用于全面评估LLM的性能。

关键创新:最重要的创新点在于将LLM应用于科学计算领域,并将其定位为代码生成器,而非直接的解预测器。这种方法充分利用了LLM的语言理解和代码生成能力,以及数值算法的成熟性和可靠性。与现有方法相比,该方法更易于解释和调试,并且可以利用已有的数值算法知识。

关键设计:论文的关键设计包括:1. 数据集设计:诊断数据集包含表面上看起来像是刚性的问题,但实际上可以通过代数简化证明其非刚性,用于测试LLM的推理能力。大规模基准包含各种类型的ODE问题,涵盖刚性和非刚性ODE机制,用于全面评估LLM的性能。2. 提示工程:论文研究了不同类型的提示策略,包括无引导提示和领域特定知识引导的提示,以提高LLM生成代码的质量。3. 模型微调:论文对开源和闭源LLM进行了微调,以提高其在科学计算任务中的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过足够的上下文和引导提示,较新的指令遵循模型在可执行性和数值有效性方面都取得了高精度。在许多情况下,最新的开源系统在没有微调的情况下表现出色,而较旧或较小的模型仍然受益于微调。这表明,精心设计的提示和微调可以产生专门的LLM agent,能够可靠地解决简单的ODE问题。

🎯 应用场景

该研究成果可应用于各种科学与工程领域,例如物理模拟、化学反应动力学、生物建模等。通过LLM自动生成求解器代码,可以降低科学计算的门槛,加速科学发现和工程设计过程。未来,该方法有望扩展到更复杂的科学计算任务,例如偏微分方程求解、优化问题等。

📄 摘要(原文)

Recent work in scientific machine learning aims to tackle scientific tasks directly by predicting target values with neural networks (e.g., physics-informed neural networks, neural ODEs, neural operators, etc.), but attaining high accuracy and robustness has been challenging. We explore an alternative view: use LLMs to write code that leverages decades of numerical algorithms. This shifts the burden from learning a solution function to making domain-aware numerical choices. We ask whether LLMs can act as SciML agents that, given a natural-language ODE description, generate runnable code that is scientifically appropriate, selecting suitable solvers (stiff vs. non-stiff), and enforcing stability checks. There is currently no benchmark to measure this kind of capability for scientific computing tasks. As such, we first introduce two new datasets: a diagnostic dataset of adversarial "misleading" problems; and a large-scale benchmark of 1,000 diverse ODE tasks. The diagnostic set contains problems whose superficial appearance suggests stiffness, and that require algebraic simplification to demonstrate non-stiffness; and the large-scale benchmark spans stiff and non-stiff ODE regimes. We evaluate open- and closed-source LLM models along two axes: (i) unguided versus guided prompting with domain-specific knowledge; and (ii) off-the-shelf versus fine-tuned variants. Our evaluation measures both executability and numerical validity against reference solutions. We find that with sufficient context and guided prompts, newer instruction-following models achieve high accuracy on both criteria. In many cases, recent open-source systems perform strongly without fine-tuning, while older or smaller models still benefit from fine-tuning. Overall, our preliminary results indicate that careful prompting and fine-tuning can yield a specialized LLM agent capable of reliably solving simple ODE problems.