LLM-ODE: Data-driven Discovery of Dynamical Systems with Large Language Models
作者: Amirmohammad Ziaei Bideh, Jonathan Gryak
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
LLM-ODE:利用大语言模型进行数据驱动的动力系统方程发现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动力系统 方程发现 遗传编程 大语言模型 符号回归
📋 核心要点
- 现有基于遗传编程的方程发现方法在探索符号搜索空间时效率低下,导致收敛缓慢和结果欠佳。
- LLM-ODE利用大语言模型的生成能力,从精英候选方程中提取模式,指导符号进化过程,从而更有效地搜索解空间。
- 实验结果表明,LLM-ODE在搜索效率和Pareto前沿质量方面优于传统遗传编程方法,并展现出更好的可扩展性。
📝 摘要(中文)
发现动力系统的控制方程是许多科学学科的核心问题。随着实验数据的日益丰富,自动方程发现方法提供了一种有前景的数据驱动方法来加速科学发现。在这些方法中,遗传编程(GP)因其灵活性和可解释性而被广泛采用。然而,基于GP的方法通常存在符号搜索空间探索效率低下的问题,导致收敛速度慢和次优解。为了解决这些局限性,我们提出了LLM-ODE,一种大语言模型辅助的模型发现框架,它利用从精英候选方程中提取的模式来指导符号进化。通过利用大语言模型的生成先验,LLM-ODE产生更明智的搜索轨迹,同时保留进化算法的探索优势。在91个动力系统上的实验结果表明,LLM-ODE变体在搜索效率和Pareto前沿质量方面始终优于经典GP方法。总的来说,我们的结果表明,与传统的基于GP的发现相比,LLM-ODE提高了效率和准确性,并且与线性模型和仅Transformer的模型发现方法相比,提供了更高的可扩展性。
🔬 方法详解
问题定义:论文旨在解决动力系统方程的自动发现问题。现有基于遗传编程(GP)的方法虽然灵活且可解释,但在探索复杂的符号搜索空间时效率较低,容易陷入局部最优,导致收敛速度慢,难以找到全局最优解。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成先验知识来指导GP的搜索过程。LLM能够学习并生成符合特定模式的表达式,从而帮助GP更有效地探索搜索空间,避免盲目搜索。通过从精英候选方程中提取模式,LLM可以生成更具潜力的候选解,加速收敛并提高解的质量。
技术框架:LLM-ODE框架主要包含以下几个阶段:1)使用GP进行初步的方程搜索;2)从GP生成的精英候选方程中提取模式;3)使用LLM基于提取的模式生成新的候选方程;4)将LLM生成的候选方程加入GP的种群中,进行下一轮的进化。这个过程迭代进行,直到满足停止条件。
关键创新:LLM-ODE的关键创新在于将LLM的生成能力与GP的搜索能力相结合。传统GP方法依赖于随机的变异和交叉操作,搜索效率较低。LLM-ODE通过LLM生成更具针对性的候选方程,显著提高了搜索效率。与线性模型和仅Transformer的模型发现方法相比,LLM-ODE具有更好的可扩展性,能够处理更高维的系统。
关键设计:LLM-ODE的关键设计包括:1)如何从精英候选方程中提取有效的模式;2)如何设计LLM的输入和输出格式,使其能够生成符合语法规则的方程;3)如何平衡LLM的生成能力和GP的探索能力,避免LLM过度主导搜索过程。论文中可能涉及对LLM进行微调,以更好地适应方程发现的任务。具体参数设置和损失函数等细节需要在论文中查找。
🖼️ 关键图片
📊 实验亮点
LLM-ODE在91个动力系统上的实验结果表明,其变体在搜索效率和Pareto前沿质量方面始终优于经典的GP方法。具体性能数据和提升幅度需要在论文中查找,但总体而言,LLM-ODE能够更快地找到更优的解,并展现出更好的可扩展性,能够处理更高维的系统。
🎯 应用场景
LLM-ODE可应用于多个科学和工程领域,例如物理学、化学、生物学和控制工程。它可以帮助科学家和工程师自动发现描述复杂系统行为的数学模型,从而加速科学发现和工程设计。例如,可以用于发现新的药物动力学模型、预测气候变化趋势或优化控制系统的性能。该方法在数据驱动的科学发现中具有广泛的应用前景。
📄 摘要(原文)
Discovering the governing equations of dynamical systems is a central problem across many scientific disciplines. As experimental data become increasingly available, automated equation discovery methods offer a promising data-driven approach to accelerate scientific discovery. Among these methods, genetic programming (GP) has been widely adopted due to its flexibility and interpretability. However, GP-based approaches often suffer from inefficient exploration of the symbolic search space, leading to slow convergence and suboptimal solutions. To address these limitations, we propose LLM-ODE, a large language model-aided model discovery framework that guides symbolic evolution using patterns extracted from elite candidate equations. By leveraging the generative prior of large language models, LLM-ODE produces more informed search trajectories while preserving the exploratory strengths of evolutionary algorithms. Empirical results on 91 dynamical systems show that LLM-ODE variants consistently outperform classical GP methods in terms of search efficiency and Pareto-front quality. Overall, our results demonstrate that LLM-ODE improves both efficiency and accuracy over traditional GP-based discovery and offers greater scalability to higher-dimensional systems compared to linear and Transformer-only model discovery methods.