Evaluating Large Language Models for Real-World Engineering Tasks
作者: Rene Heesch, Sebastian Eilermann, Alexander Windmann, Alexander Diedrich, Philipp Rosenthal, Oliver Niggemann
分类: cs.AI, cs.CL
发布日期: 2025-05-12
💡 一句话要点
构建真实工程任务数据集,评估大语言模型在产品设计、预测和诊断中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 工程任务 评估数据集 产品设计 故障诊断 性能预测 真实场景 人工智能应用
📋 核心要点
- 现有工程领域LLM评估依赖简化用例,缺乏对真实复杂问题的有效评估。
- 论文构建包含100+真实工程场景问题的数据集,覆盖产品设计、预测和诊断等核心能力。
- 实验评估了四种先进LLM,结果表明LLM在抽象推理、形式建模和工程逻辑方面存在不足。
📝 摘要(中文)
大型语言模型(LLM)不仅对日常活动,而且对工程任务都具有变革意义。然而,目前对LLM在工程领域的评估存在两个关键缺陷:(i)依赖于简化的用例,通常改编自易于验证正确性的考试材料;(ii)使用不足以捕捉关键工程能力的临时场景。因此,LLM在复杂、真实的工程问题上的评估在很大程度上仍未被探索。本文通过引入一个包含100多个问题的精选数据库来解决这一差距,这些问题源自真实的、面向生产的工程场景,系统地设计用于覆盖产品设计、预测和诊断等核心能力。使用该数据集,我们评估了四种最先进的LLM,包括基于云的和本地托管的实例,以系统地研究它们在复杂工程任务中的表现。我们的结果表明,LLM在基本的时间和结构推理方面表现出优势,但在抽象推理、形式建模和上下文相关的工程逻辑方面表现不佳。
🔬 方法详解
问题定义:现有的大语言模型在工程领域的评估主要依赖于简化的用例和临时构建的场景,这些场景无法充分代表真实工程问题的复杂性和多样性。因此,现有方法难以准确评估LLM在解决实际工程问题时的能力,尤其是在抽象推理、形式建模和上下文相关的工程逻辑方面。
核心思路:论文的核心思路是构建一个更贴近真实工程实践的数据集,该数据集包含来自实际生产环境的工程问题,并覆盖工程领域的核心能力,如产品设计、预测和诊断。通过在这个数据集上评估LLM,可以更全面、客观地了解LLM在解决复杂工程问题时的优势和不足。
技术框架:论文的主要技术框架包括以下几个部分:1) 构建真实工程场景数据集:从实际生产环境中收集工程问题,并进行整理和标注。2) 选择评估对象:选择具有代表性的、先进的大语言模型,包括云端和本地部署的模型。3) 设计评估方案:针对数据集中的不同类型问题,设计合理的评估指标和方法。4) 执行评估实验:使用选定的LLM在数据集上进行实验,并记录实验结果。5) 分析实验结果:对实验结果进行分析,总结LLM在不同类型问题上的表现,并找出其优势和不足。
关键创新:论文的关键创新在于构建了一个高质量的、面向真实工程场景的数据集。该数据集不仅包含了大量来自实际生产环境的工程问题,而且还覆盖了工程领域的核心能力,这使得对LLM在工程领域的评估更加全面、客观和有意义。
关键设计:数据集包含超过100个问题,这些问题来源于真实的、面向生产的工程场景,并且被系统地设计用于覆盖产品设计、预测和诊断等核心能力。评估指标包括准确率、召回率、F1值等,用于衡量LLM在不同类型问题上的表现。论文还考虑了不同LLM的部署方式(云端和本地),以评估其在不同环境下的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在基本的时间和结构推理方面表现出一定的优势,但在抽象推理、形式建模和上下文相关的工程逻辑方面表现不佳。例如,LLM在处理简单的时序问题时能够给出较为准确的答案,但在需要进行复杂逻辑推理或结合领域知识的问题上则表现出明显的不足。这些结果为未来改进LLM在工程领域的应用提供了重要的参考。
🎯 应用场景
该研究成果可应用于评估和改进大语言模型在工程领域的应用能力,例如辅助工程师进行产品设计、故障诊断和性能预测。通过更准确地了解LLM的优势和局限性,可以更好地将其应用于实际工程项目中,提高工程效率和质量,并为未来的工程领域AI应用提供指导。
📄 摘要(原文)
Large Language Models (LLMs) are transformative not only for daily activities but also for engineering tasks. However, current evaluations of LLMs in engineering exhibit two critical shortcomings: (i) the reliance on simplified use cases, often adapted from examination materials where correctness is easily verifiable, and (ii) the use of ad hoc scenarios that insufficiently capture critical engineering competencies. Consequently, the assessment of LLMs on complex, real-world engineering problems remains largely unexplored. This paper addresses this gap by introducing a curated database comprising over 100 questions derived from authentic, production-oriented engineering scenarios, systematically designed to cover core competencies such as product design, prognosis, and diagnosis. Using this dataset, we evaluate four state-of-the-art LLMs, including both cloud-based and locally hosted instances, to systematically investigate their performance on complex engineering tasks. Our results show that LLMs demonstrate strengths in basic temporal and structural reasoning but struggle significantly with abstract reasoning, formal modeling, and context-sensitive engineering logic.