In-Context System Identification for Nonlinear Dynamics Using Large Language Models

📄 arXiv: 2602.07360v1 📥 PDF

作者: Linyu Lin

分类: eess.SY

发布日期: 2026-02-07

备注: 6 pages, 5 figures, submitted to The 10th IEEE Conference on Control Technology and Applications (CCTA) 2026


💡 一句话要点

提出LLM辅助的SINDy方法,用于非线性动力学系统的上下文辨识。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非线性动力学 系统辨识 稀疏回归 大语言模型 上下文学习

📋 核心要点

  1. 传统SINDy方法依赖专家调整候选库,缺乏自动化和通用性,难以处理复杂动力学系统。
  2. 利用LLM的上下文学习能力,迭代优化SINDy的候选方程,融合数据误差和领域知识。
  3. 在ODEBench数据集上验证,LLM辅助的SINDy在方程相似度和测试误差上均优于传统SINDy。

📝 摘要(中文)

本文提出了一种基于大语言模型(LLM)辅助的稀疏非线性动力学辨识(SINDy)流程,该流程通过上下文学习,迭代地改进候选方程。该流程首先使用自适应库拟合基线SINDy模型,然后进入LLM引导的改进循环。在每次迭代中,当前最佳方程、误差指标和领域特定约束被总结成提示词输入LLM,LLM会建议新的方程结构。这些候选方程根据定义的符号形式进行解析,并在训练和测试数据上进行评估。该流程使用基于仿真的误差作为主要指标,同时也评估与真实解的结构相似性,包括匹配函数形式、关键项、耦合和定性行为。如果测试误差低于阈值(NRMSE < 0.1)或达到最大迭代次数(10次),则迭代停止。最后,选择最佳模型,并在63个动力系统数据集(ODEBench)和沸水核反应堆的March Leuba模型上评估该LLM辅助的SINDy。结果表明,与经典SINDy相比,LLM循环能够持续改进符号恢复,对于复杂动力学系统,方程与真实解的相似度更高,测试RMSE更低。这项工作表明,LLM可以有效地指导SINDy在方程空间中搜索,将数据驱动的误差反馈与领域相关的符号推理相结合,从而发现不仅准确而且结构可解释的控制方程。

🔬 方法详解

问题定义:论文旨在解决从数据中发现非线性动力学系统的控制方程的问题。传统SINDy方法需要手动设计候选函数库,这需要领域知识,并且对于复杂的动力学系统,手动设计的库可能不完整或不合适,导致辨识结果不准确或难以解释。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大泛化能力和符号推理能力,自动地生成和优化SINDy的候选方程库。通过将SINDy的辨识结果、误差指标和领域约束作为上下文信息输入LLM,让LLM根据这些信息提出新的候选方程结构,从而迭代地改进辨识结果。

技术框架:整体流程包括以下几个阶段:1) 使用自适应库进行初始SINDy模型拟合;2) 将当前最佳方程、误差指标和领域约束总结成提示词;3) 将提示词输入LLM,LLM生成新的候选方程结构;4) 解析候选方程,并在训练和测试数据上进行评估;5) 根据误差指标和结构相似性选择最佳模型;6) 如果满足停止条件(测试误差低于阈值或达到最大迭代次数),则停止迭代,否则返回第2步。

关键创新:最重要的技术创新点在于将LLM引入SINDy的方程辨识流程中,利用LLM的上下文学习能力和符号推理能力,自动地生成和优化候选方程库。这避免了手动设计候选库的繁琐和主观性,提高了SINDy的自动化程度和通用性。与现有方法的本质区别在于,传统SINDy依赖于预定义的候选函数库,而本文提出的方法可以根据数据和领域知识动态地生成和优化候选函数库。

关键设计:关键设计包括:1) 使用自适应库来初始化SINDy模型,以获得一个合理的初始解;2) 设计合适的提示词,将SINDy的辨识结果、误差指标和领域约束有效地传递给LLM;3) 定义合适的误差指标和结构相似性度量,用于评估候选方程的质量;4) 设置合适的停止条件,以平衡辨识精度和计算成本。

📊 实验亮点

实验结果表明,在ODEBench数据集上,LLM辅助的SINDy方法在方程相似度和测试RMSE上均优于传统SINDy方法。对于复杂动力学系统,LLM循环能够持续改进符号恢复,方程与真实解的相似度更高,测试RMSE更低。例如,在March Leuba模型上,LLM辅助的SINDy能够更准确地辨识出系统的控制方程。

🎯 应用场景

该研究成果可应用于多个领域,例如:物理建模、化学反应动力学、生物系统建模、控制系统设计等。通过自动发现系统的控制方程,可以更深入地理解系统的行为,并为预测、优化和控制提供理论基础。该方法还可以用于发现新的物理规律和化学反应机理。

📄 摘要(原文)

Sparse Identification of Nonlinear Dynamics (SINDy) is a powerful method for discovering parsimonious governing equations from data, but it often requires expert tuning of candidate libraries. We propose an LLM-aided SINDy pipeline that iteratively refines candidate equations using a large language model (LLM) in the loop through in-context learning. The pipeline begins with a baseline SINDy model fit using an adaptive library and then enters a LLM-guided refinement cycle. At each iteration, the current best equations, error metrics, and domain-specific constraints are summarized in a prompt to the LLM, which suggests new equation structures. These candidate equations are parsed against a defined symbolic form and evaluated on training and test data. The pipeline uses simulation-based error as a primary metric, but also assesses structural similarity to ground truth, including matching functional forms, key terms, couplings, qualitative behavior. An iterative stopping criterion ends refinement early if test error falls below a threshold (NRMSE < 0.1) or if a maximum of 10 iterations is reached. Finally, the best model is selected, and we evaluate this LLM-aided SINDy on 63 dynamical system datasets (ODEBench) and march leuba model for boiling nuclear reactor. The results are compared against classical SINDy and show the LLM-loop consistently improves symbolic recovery with higher equation similarity to ground truth and lower test RMSE than baseline SINDy for cases with complex dynamics. This work demonstrates that an LLM can effectively guide SINDy's search through equation space, integrating data-driven error feedback with domain-inspired symbolic reasoning to discover governing equations that are not only accurate but also structurally interpretable.