An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability
作者: Max Ofsa, Taylan G. Topcu
分类: cs.SE, cs.AI, cs.CL
发布日期: 2025-02-05
备注: 10 pages, 3 figures, submitted to Conference on Systems Engineering Research (CSER)
💡 一句话要点
评估ChatGPT在任务工程问题构建中识别利益相关者的能力及性能变异性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 任务工程 问题构建 利益相关者识别 ChatGPT 系统工程 实证研究
📋 核心要点
- 任务工程问题构建面临开放性挑战,需要将模糊问题转化为明确的工程问题,现有方法难以有效应对。
- 本文探索了ChatGPT在任务工程问题构建中识别利益相关者的能力,旨在评估其在辅助问题构建方面的潜力。
- 实验结果表明,ChatGPT在识别人类利益相关者方面表现较好,但在识别外部系统和环境因素方面存在不足,且输出结果存在较大变异性。
📝 摘要(中文)
随着生成式人工智能的普及和系统之系统视角的日益增长,系统工程正在不断发展。在美国国防部,这种视角被正式纳入任务工程的范畴。任务工程问题的构建极具挑战性,因为它是一个开放式的过程,需要将定义不明确的问题转化为适合工程开发的明确问题。人工智能能在多大程度上协助问题构建目标仍有待观察。为此,本文探讨了多用途大型语言模型(LLM)在支持任务工程问题构建任务(特别是利益相关者识别)方面的质量和一致性。我们确定了一个相关的参考问题,即NASA的太空任务设计挑战,并记录了ChatGPT-3.5执行利益相关者识别任务的能力。我们执行了多次并行尝试,并对LLM的输出进行了定性评估,重点关注其质量和变异性。我们的研究结果描绘了一幅细致的图景。我们发现,LLM在识别以人为中心的利益相关者方面表现良好,但在识别外部系统和环境因素方面表现不佳,尽管我们明确努力考虑了这些因素。此外,LLM难以保持所需的抽象级别,并且倾向于产生特定于解决方案的输出,这对于问题构建是不合适的。更重要的是,我们记录了并行线程之间的巨大差异,这突出表明LLM的输出应谨慎使用,最好采用随机的视角来看待它们的能力。总的来说,我们的研究结果表明,虽然ChatGPT可以减少一些专家的工作量,但其缺乏一致性和领域理解可能会限制其在问题构建任务中的可靠性。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM),特别是ChatGPT-3.5,在任务工程(ME)问题构建阶段识别利益相关者的能力。现有方法在处理开放式、定义不明确的任务工程问题时存在不足,难以有效地将这些问题转化为可工程化的形式。此外,LLM在这一领域的应用潜力尚未得到充分探索,其输出质量和一致性也存在疑问。
核心思路:论文的核心思路是通过实证研究,评估ChatGPT-3.5在特定任务工程场景(NASA太空任务设计挑战)下识别利益相关者的能力。通过多次并行尝试,分析LLM输出的质量和变异性,从而了解其在问题构建任务中的优势和局限性。这种方法旨在提供一个更细致的视角,避免过度依赖LLM的潜在风险。
技术框架:论文采用了一种基于案例研究的评估框架。首先,选择NASA太空任务设计挑战作为参考问题。然后,使用ChatGPT-3.5执行利益相关者识别任务,并进行多次并行尝试。最后,对LLM的输出进行定性评估,重点关注其质量(例如,识别利益相关者的准确性和完整性)和变异性(例如,不同尝试之间的差异)。
关键创新:论文的主要创新在于对LLM在任务工程问题构建中的实际应用进行了实证研究。与以往侧重于LLM通用能力的评估不同,本文关注其在特定领域(任务工程)和特定任务(利益相关者识别)中的表现。此外,论文还强调了LLM输出的变异性,这对于评估其可靠性至关重要。
关键设计:论文的关键设计包括:1) 选择NASA太空任务设计挑战作为评估场景,该场景具有一定的复杂性和代表性;2) 执行多次并行尝试,以评估LLM输出的变异性;3) 采用定性评估方法,深入分析LLM输出的质量和局限性。论文没有涉及具体的参数设置、损失函数或网络结构,因为其重点在于评估现有LLM的能力,而不是提出新的模型或算法。
📊 实验亮点
实验结果表明,ChatGPT在识别以人为中心的利益相关者方面表现良好,但难以识别外部系统和环境因素。此外,LLM倾向于产生特定于解决方案的输出,不适合问题构建阶段。更重要的是,实验发现LLM输出存在显著的变异性,表明其可靠性存在问题,应谨慎使用。
🎯 应用场景
该研究结果可应用于系统工程、任务工程等领域,帮助工程师和决策者更好地理解和利用大型语言模型辅助问题构建。通过了解LLM的优势和局限性,可以更有效地分配任务,提高工作效率,并避免过度依赖LLM带来的风险。未来,该研究可扩展到其他问题构建任务和领域,为人工智能在工程领域的应用提供更全面的指导。
📄 摘要(原文)
Systems engineering (SE) is evolving with the availability of generative artificial intelligence (AI) and the demand for a systems-of-systems perspective, formalized under the purview of mission engineering (ME) in the US Department of Defense. Formulating ME problems is challenging because they are open-ended exercises that involve translation of ill-defined problems into well-defined ones that are amenable for engineering development. It remains to be seen to which extent AI could assist problem formulation objectives. To that end, this paper explores the quality and consistency of multi-purpose Large Language Models (LLM) in supporting ME problem formulation tasks, specifically focusing on stakeholder identification. We identify a relevant reference problem, a NASA space mission design challenge, and document ChatGPT-3.5's ability to perform stakeholder identification tasks. We execute multiple parallel attempts and qualitatively evaluate LLM outputs, focusing on both their quality and variability. Our findings portray a nuanced picture. We find that the LLM performs well in identifying human-focused stakeholders but poorly in recognizing external systems and environmental factors, despite explicit efforts to account for these. Additionally, LLMs struggle with preserving the desired level of abstraction and exhibit a tendency to produce solution specific outputs that are inappropriate for problem formulation. More importantly, we document great variability among parallel threads, highlighting that LLM outputs should be used with caution, ideally by adopting a stochastic view of their abilities. Overall, our findings suggest that, while ChatGPT could reduce some expert workload, its lack of consistency and domain understanding may limit its reliability for problem formulation tasks.