Can Large Language Models Solve Engineering Equations? A Systematic Comparison of Direct Prediction and Solver-Assisted Approaches
作者: Sai Varun Kodathala, Rakesh Vunnam
分类: cs.AI, cs.CE, math.NA
发布日期: 2026-01-05
备注: 14 pages
💡 一句话要点
对比直接预测与求解器辅助方法,评估大语言模型求解工程方程能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 工程方程 数值求解 迭代算法 符号计算 混合架构 牛顿-拉夫逊法
📋 核心要点
- 工程领域中存在大量需要迭代数值解的超越方程,传统方法求解效率低且易出错。
- 论文提出一种混合架构,结合LLM的符号操作能力和经典迭代求解器的数值计算能力。
- 实验表明,该混合架构显著降低了求解误差,尤其在电子工程领域提升高达93.1%。
📝 摘要(中文)
本研究系统性地评估了大语言模型(LLM)通过直接数值预测求解工程领域中需要迭代数值解的超越方程的能力,并与LLM结合符号操作和经典迭代求解器的混合架构进行了比较。在涵盖七个工程领域的100个问题上,测试了六个最先进的模型(GPT-5.1、GPT-5.2、Gemini-3-Flash、Gemini-2.5-Lite、Claude-Sonnet-4.5、Claude-Opus-4.5)。结果表明,直接预测的平均相对误差为0.765到1.262,而求解器辅助计算的平均相对误差为0.225到0.301,误差降低了67.9%到81.8%。领域分析显示,电子工程领域由于指数方程的敏感性,改进最为显著(93.1%),而流体力学领域由于LLM有效的模式识别能力,改进相对较小(7.2%)。研究表明,当前LLM擅长符号操作和领域知识检索,但在精确的迭代算术方面存在困难,因此更适合作为经典数值求解器的智能接口,而不是独立的计算引擎。
🔬 方法详解
问题定义:工程实践中存在大量超越方程,例如流体力学中的摩擦系数计算和轨道位置确定,这些方程需要迭代数值解。现有方法,如传统数值计算方法,在处理复杂工程问题时效率较低,且容易受到初始条件的影响,导致求解失败或收敛速度慢。此外,针对不同类型的方程,需要选择合适的数值方法,增加了使用的复杂性。
核心思路:论文的核心思路是利用大语言模型(LLM)的符号操作和领域知识检索能力,辅助传统的数值求解器。LLM负责公式的推导和初始条件的设定,而数值求解器则负责精确的迭代计算。这种混合方法旨在结合LLM的智能性和数值求解器的可靠性,提高求解效率和准确性。
技术框架:整体框架包含两个主要阶段:1) LLM公式推导与初始条件生成阶段:LLM接收工程问题描述,根据领域知识和符号操作能力,生成相应的数学方程,并提供迭代求解所需的初始条件。2) 数值求解器迭代计算阶段:利用LLM提供的方程和初始条件,采用经典的迭代求解器(如牛顿-拉夫逊法)进行数值计算,直至满足收敛条件。
关键创新:论文的关键创新在于提出了一种LLM与传统数值求解器相结合的混合架构,充分利用了LLM在符号操作和知识检索方面的优势,以及数值求解器在精确计算方面的能力。这种方法避免了LLM直接进行数值计算的不足,提高了求解的准确性和可靠性。
关键设计:论文的关键设计包括:1) LLM的prompt设计,用于引导LLM生成正确的数学方程和初始条件。2) 数值求解器的选择,根据方程的类型选择合适的迭代方法,例如牛顿-拉夫逊法。3) 收敛条件的设定,用于判断迭代过程是否结束,保证求解的精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与直接预测相比,求解器辅助计算方法显著降低了求解误差,误差降低幅度达到67.9%到81.8%。在电子工程领域,由于指数方程的敏感性,误差降低幅度高达93.1%。即使在LLM表现较好的流体力学领域,也实现了7.2%的误差降低。这些结果表明,LLM更适合作为数值求解器的智能接口,而非独立的计算引擎。
🎯 应用场景
该研究成果可应用于各种工程领域,例如流体力学、热力学、电子工程、结构力学等,用于求解复杂的工程方程。通过结合LLM和传统数值求解器,可以提高工程计算的效率和准确性,加速工程设计和优化过程。此外,该方法还可以应用于教育领域,帮助学生更好地理解和掌握工程原理。
📄 摘要(原文)
Transcendental equations requiring iterative numerical solution pervade engineering practice, from fluid mechanics friction factor calculations to orbital position determination. We systematically evaluate whether Large Language Models can solve these equations through direct numerical prediction or whether a hybrid architecture combining LLM symbolic manipulation with classical iterative solvers proves more effective. Testing six state-of-the-art models (GPT-5.1, GPT-5.2, Gemini-3-Flash, Gemini-2.5-Lite, Claude-Sonnet-4.5, Claude-Opus-4.5) on 100 problems spanning seven engineering domains, we compare direct prediction against solver-assisted computation where LLMs formulate governing equations and provide initial conditions while Newton-Raphson iteration performs numerical solution. Direct prediction yields mean relative errors of 0.765 to 1.262 across models, while solver-assisted computation achieves 0.225 to 0.301, representing error reductions of 67.9% to 81.8%. Domain-specific analysis reveals dramatic improvements in Electronics (93.1%) due to exponential equation sensitivity, contrasted with modest gains in Fluid Mechanics (7.2%) where LLMs exhibit effective pattern recognition. These findings establish that contemporary LLMs excel at symbolic manipulation and domain knowledge retrieval but struggle with precision-critical iterative arithmetic, suggesting their optimal deployment as intelligent interfaces to classical numerical solvers rather than standalone computational engines.