Analysis of LLMs vs Human Experts in Requirements Engineering

作者: Cory Hymel, Hiroe Johnson

分类: cs.SE, cs.AI

发布日期: 2025-01-31 (更新: 2025-02-04)

备注: 8 pages, 15 figures

💡 一句话要点

对比LLM与专家在需求工程中的表现：LLM在需求获取方面更优

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 需求工程 需求获取 软件开发 用户评估

📋 核心要点

现有研究主要集中在LLM的代码生成能力，忽略了其在需求工程（RE）中的潜力，尤其是在需求获取方面。
该研究对比了LLM和人类专家在需求获取方面的能力，旨在评估LLM在RE领域的有效性和适用性。
实验结果表明，LLM生成的需求在对齐度和完整性方面优于人类专家，且速度更快、成本更低，但用户主观上更倾向于人类专家的结果。

📝 摘要（中文）

目前，大型语言模型（LLM）在软件开发中的应用研究主要集中在代码生成方面。关于LLM对需求工程（RE）的影响，即开发和验证系统需求的过程，相关文献较少。在RE中，需求获取是一个子领域，涉及从用户、客户和其他利益相关者那里发现和记录系统需求。本研究在限定时间和提示的条件下，比较了LLM与人类专家在软件系统需求获取方面的能力。结果表明，LLM生成的需求与人类专家生成的需求相比，在对齐度方面评估更高（+1.12），并且更完整（+10.2%）。相反，用户倾向于认为他们认为更对齐的解决方案是由人类专家生成的。此外，虽然LLM生成文档的得分更高，速度是人类专家的720倍，但其成本平均仅为人类专家的0.06%。总体而言，这些发现表明，LLM将在需求工程中发挥越来越重要的作用，通过改进需求定义、实现更有效的资源分配和缩短整体项目时间。

🔬 方法详解

问题定义：论文旨在解决软件开发过程中需求工程阶段，特别是需求获取环节，如何更高效、更经济地定义和验证系统需求的问题。现有方法依赖于人工专家，成本高昂且耗时，同时可能存在主观偏差和遗漏。

核心思路：论文的核心思路是探索利用大型语言模型（LLM）自动生成需求文档的可行性，并将其与人工专家生成的需求文档进行对比评估，从而验证LLM在需求工程领域的潜力。通过量化LLM生成的需求文档的质量、速度和成本，来评估其相对于人工专家的优势。

技术框架：该研究采用实验对比的方法。首先，设定一个软件系统需求获取的任务。然后，分别使用LLM和人类专家在限定的时间和提示下生成需求文档。最后，通过用户评估的方式，对LLM和人类专家生成的需求文档进行对比分析，评估指标包括对齐度、完整性和用户偏好。同时，记录LLM和人类专家完成任务所需的时间和成本。

关键创新：该研究的关键创新在于将LLM应用于需求工程领域，并系统地评估了其在需求获取方面的能力。以往研究主要集中在LLM的代码生成方面，而该研究则关注LLM在需求定义方面的潜力，为LLM在软件开发生命周期中的应用开辟了新的方向。

关键设计：研究中关键的设计包括：1) 限定时间和提示，以模拟实际需求获取场景；2) 使用用户评估作为主要评估方法，以反映用户对需求文档质量的主观感受；3) 对比LLM和人类专家生成的需求文档的对齐度、完整性和用户偏好，以及完成任务所需的时间和成本；4) 具体使用的LLM模型（论文中未明确指出，属于未知信息）。

📊 实验亮点

实验结果表明，LLM生成的需求文档在对齐度方面比人类专家高1.12，完整性方面高10.2%。LLM生成文档的速度是人类专家的720倍，而成本仅为人类专家的0.06%。这些数据表明，LLM在需求获取方面具有显著的优势，能够大幅提高效率并降低成本。

🎯 应用场景

该研究成果可应用于软件开发的早期阶段，辅助需求工程师快速生成高质量的需求文档，降低需求获取的成本和时间。通过LLM的辅助，可以更全面地收集和整理用户需求，减少需求遗漏和偏差，提高软件开发的效率和质量。未来，LLM有望成为需求工程领域的重要工具，甚至可以实现需求获取的自动化。

📄 摘要（原文）

The majority of research around Large Language Models (LLM) application to software development has been on the subject of code generation. There is little literature on LLMs' impact on requirements engineering (RE), which deals with the process of developing and verifying the system requirements. Within RE, there is a subdiscipline of requirements elicitation, which is the practice of discovering and documenting requirements for a system from users, customers, and other stakeholders. In this analysis, we compare LLM's ability to elicit requirements of a software system, as compared to that of a human expert in a time-boxed and prompt-boxed study. We found LLM-generated requirements were evaluated as more aligned (+1.12) than human-generated requirements with a trend of being more complete (+10.2%). Conversely, we found users tended to believe that solutions they perceived as more aligned had been generated by human experts. Furthermore, while LLM-generated documents scored higher and performed at 720x the speed, their cost was, on average, only 0.06% that of a human expert. Overall, these findings indicate that LLMs will play an increasingly important role in requirements engineering by improving requirements definitions, enabling more efficient resource allocation, and reducing overall project timelines.

Analysis of LLMs vs Human Experts in Requirements Engineering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理