DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories

📄 arXiv: 2602.08887v1 📥 PDF

作者: Adam Trendowicz, Daniel Seifert, Andreas Jedlitschka, Marcus Ciolkowski, Anton Strahilov

分类: cs.SE, cs.AI

发布日期: 2026-02-09


💡 一句话要点

DeepQuali:利用大型语言模型评估用户故事质量的初步研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 需求工程 用户故事 质量评估 敏捷开发

📋 核心要点

  1. 现有需求工程中,大型语言模型(LLM)主要集中于需求获取、转换和分类,缺乏对需求质量的有效评估。
  2. DeepQuali方法利用GPT-4o等LLM,结合质量模型和解释性反馈,旨在评估和改进敏捷软件开发中的需求质量。
  3. 实验结果表明,专家在总体上认可LLM的质量评估,尤其是在总体评分和解释方面,肯定了该方法的实用性。

📝 摘要(中文)

生成式人工智能(GAI),特别是大型语言模型(LLMs),越来越多地应用于软件工程领域,主要用于编码任务。然而,需求工程——特别是需求验证——中GAI的应用还很有限。目前使用GAI进行需求工程的重点是获取、转换和分类需求,而不是质量评估。我们提出并评估了一种基于LLM(GPT-4o)的方法“DeepQuali”,用于评估和改进敏捷软件开发中的需求质量。我们将其应用于两家小型公司的项目中,将基于LLM的质量评估与专家判断进行了比较。专家还参与了解决方案的评审,提供了反馈,并评估了他们对该方法的接受程度。专家们在很大程度上同意LLM的质量评估,尤其是在总体评分和解释方面。然而,他们并不总是同意其他专家对详细评分的看法,这表明专业知识和经验可能会影响判断。专家们认识到该方法的实用性,但也批评了缺乏与其工作流程的集成。LLM在支持软件工程师进行需求质量评估和改进方面显示出潜力。明确使用质量模型和解释性反馈提高了接受度。

🔬 方法详解

问题定义:论文旨在解决敏捷软件开发中用户故事(User Stories)质量评估的问题。现有方法依赖人工评估,效率低且主观性强,缺乏自动化和客观性。现有LLM在需求工程中的应用主要集中于需求获取和分类,忽略了质量评估这一关键环节。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,模拟专家对用户故事进行质量评估的过程。通过将用户故事输入LLM,并结合预定义的质量模型,使LLM能够自动识别用户故事中的质量缺陷,并给出相应的解释和改进建议。

技术框架:DeepQuali方法的技术框架主要包含以下几个阶段:1) 输入用户故事:将待评估的用户故事输入到LLM中。2) 质量模型集成:利用预定义的质量模型(具体模型未知)指导LLM的评估过程。3) LLM质量评估:LLM根据用户故事和质量模型进行评估,输出质量评分和解释。4) 专家评审与反馈:专家对LLM的评估结果进行评审,并提供反馈,用于改进LLM的评估能力。5) 结果展示与改进建议:向用户展示评估结果和改进建议。

关键创新:该方法的主要创新在于将大型语言模型应用于用户故事的质量评估,并结合质量模型和解释性反馈,提高了评估的客观性和可解释性。与传统的人工评估相比,该方法具有更高的效率和可扩展性。与现有LLM在需求工程中的应用相比,该方法专注于质量评估,填补了该领域的空白。

关键设计:论文中没有详细说明LLM的具体prompt设计、质量模型的选择、损失函数以及网络结构等技术细节。GPT-4o作为基础模型,其参数设置和训练方式沿用OpenAI的默认配置。质量模型的具体选择和集成方式未知,可能需要根据具体的应用场景进行调整。

📊 实验亮点

实验结果表明,专家在总体上认可DeepQuali的质量评估结果,尤其是在总体评分和解释方面。虽然专家在详细评分上存在分歧,但总体上肯定了该方法的实用性。专家认为DeepQuali能够有效地识别用户故事中的质量缺陷,并提供有价值的改进建议。但专家也指出了该方法缺乏与现有工作流程的集成。

🎯 应用场景

DeepQuali方法可应用于敏捷软件开发团队,辅助进行用户故事的质量评估和改进,提高软件质量和开发效率。该方法还可用于软件工程教育,帮助学生理解和掌握用户故事的质量标准。未来,该方法可以扩展到其他类型的需求文档的质量评估,并集成到现有的软件开发工具链中。

📄 摘要(原文)

Generative artificial intelligence (GAI), specifically large language models (LLMs), are increasingly used in software engineering, mainly for coding tasks. However, requirements engineering - particularly requirements validation - has seen limited application of GAI. The current focus of using GAI for requirements is on eliciting, transforming, and classifying requirements, not on quality assessment. We propose and evaluate the LLM-based (GPT-4o) approach "DeepQuali", for assessing and improving requirements quality in agile software development. We applied it to projects in two small companies, where we compared LLM-based quality assessments with expert judgments. Experts also participated in walkthroughs of the solution, provided feedback, and rated their acceptance of the approach. Experts largely agreed with the LLM's quality assessments, especially regarding overall ratings and explanations. However, they did not always agree with the other experts on detailed ratings, suggesting that expertise and experience may influence judgments. Experts recognized the usefulness of the approach but criticized the lack of integration into their workflow. LLMs show potential in supporting software engineers with the quality assessment and improvement of requirements. The explicit use of quality models and explanatory feedback increases acceptance.