Exploring LLMs for Verifying Technical System Specifications Against Requirements
作者: Lasse M. Reinpold, Marvin Schieseck, Lukas P. Wagner, Felix Gehlhoff, Alexander Fay
分类: cs.SE, eess.SY
发布日期: 2024-11-18
备注: Submitted to 3rd IEEE Industrial Electronics Society Annual Online Conference (ONCON)
💡 一句话要点
探索大型语言模型在技术系统规范与需求验证中的应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 需求工程 需求验证 系统规范 智能电网
📋 核心要点
- 传统需求工程依赖人工,效率低且易出错,缺乏自动化工具支持。
- 利用LLM理解和推理能力,自动验证系统规范是否满足需求,提升效率。
- 实验表明,GPT-4o等模型在识别未满足需求方面表现出色,F1值高达94%。
📝 摘要(中文)
需求工程是一个知识密集型过程,对工程项目的成功至关重要。基于知识的需求工程(KBRE)旨在通过提供知识来辅助工程师进行系统需求的获取、验证和管理。大型语言模型(LLM)的出现为KBRE领域带来了新的机遇。本文实验性地研究了LLM在需求验证中的潜力。实验中,LLM被提供一组需求和一个文本系统规范,并被提示评估系统规范满足了哪些需求。分析了不同的实验变量,如系统规范的复杂性、需求的数量和提示策略。形式化的基于规则的系统作为基准,用于比较LLM的性能。需求和系统规范来源于智能电网领域。结果表明,像GPT-4o和Claude 3.5 Sonnet这样的先进LLM在识别未满足的需求方面取得了79%到94%的f1分数,表明LLM有潜力被用于需求验证。
🔬 方法详解
问题定义:论文旨在解决技术系统需求验证问题。现有方法,如人工审查或基于规则的系统,存在效率低、成本高、难以处理复杂规范等痛点。尤其是在智能电网等复杂领域,需求验证的难度进一步增加。
核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和推理能力,将需求验证任务转化为一个文本理解和推理问题。通过提示LLM分析系统规范文本,判断其是否满足给定的需求。这种方法旨在减少人工干预,提高验证效率和准确性。
技术框架:整体流程包括:1) 准备需求集合和系统规范文本;2) 设计合适的提示(Prompt),将需求和规范输入LLM;3) LLM分析文本并输出每个需求是否被满足的判断;4) 将LLM的输出与真实标签进行比较,评估性能。主要模块包括需求和规范预处理模块、提示工程模块、LLM推理模块和评估模块。
关键创新:关键创新在于将LLM应用于需求验证这一传统领域,探索了LLM在理解和推理技术文档方面的潜力。与传统的基于规则的系统相比,LLM能够处理更复杂的自然语言描述,并进行更灵活的推理。此外,论文还探索了不同的提示策略对LLM性能的影响。
关键设计:实验中,使用了GPT-4o和Claude 3.5 Sonnet等先进LLM。提示工程是关键,论文探索了不同的提示方式,例如直接询问LLM需求是否被满足,或者要求LLM解释原因。评估指标主要采用F1分数,用于衡量LLM识别未满足需求的准确性和召回率。系统规范的复杂性、需求的数量等因素被作为实验变量进行分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o和Claude 3.5 Sonnet等先进LLM在识别未满足的需求方面表现出色,F1分数分别达到了79%到94%。与形式化的基于规则的系统相比,LLM在处理复杂自然语言描述的需求和规范时表现出更强的适应性和准确性。实验还分析了系统规范复杂性、需求数量和提示策略等因素对LLM性能的影响。
🎯 应用场景
该研究成果可应用于软件工程、系统工程等领域,辅助工程师进行需求验证,减少错误和遗漏,提高产品质量和开发效率。尤其在智能电网、航空航天等高可靠性要求的领域,自动化的需求验证工具具有重要的应用价值。未来可进一步探索LLM在需求获取、需求管理等方面的应用。
📄 摘要(原文)
Requirements engineering is a knowledge intensive process and crucial for the success of engineering projects. The field of knowledge-based requirements engineering (KBRE) aims to support engineers by providing knowledge to assist in the elicitation, validation, and management of system requirements. The advent of large language models (LLMs) opens new opportunities in the field of KBRE. This work experimentally investigates the potential of LLMs in requirements verification. Therein, LLMs are provided with a set of requirements and a textual system specification and are prompted to assess which requirements are fulfilled by the system specification. Different experimental variables such as system specification complexity, the number of requirements, and prompting strategies were analyzed. Formal rule-based systems serve as a benchmark to compare LLM performance to. Requirements and system specifications are derived from the smart-grid domain. Results show that advanced LLMs, like GPT-4o and Claude 3.5 Sonnet, achieved f1-scores between 79 % and 94 % in identifying non-fulfilled requirements, indicating potential for LLMs to be leveraged for requirements verification.