From Inductive to Deductive: LLMs-Based Qualitative Data Analysis in Requirements Engineering
作者: Syed Tauhid Ullah Shah, Mohamad Hussein, Ann Barcomb, Mohammad Moshirpour
分类: cs.SE, cs.AI
发布日期: 2025-04-27
💡 一句话要点
利用大型语言模型进行需求工程中的定性数据分析,提升效率与一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 需求工程 定性数据分析 GPT-4 自动化标注
📋 核心要点
- 传统定性数据分析在需求工程中耗时且依赖人工,难以高效处理涉众的自由格式输入。
- 利用大型语言模型进行归纳和演绎标注,旨在提升定性数据分析的自动化程度和标注一致性。
- 实验表明,GPT-4在演绎标注中与人类分析师达成高度一致,Cohen's Kappa分数超过0.7,显著优于零样本学习。
📝 摘要(中文)
需求工程(RE)对于开发复杂和受监管的软件项目至关重要。由于将涉众输入转化为一致的软件设计面临挑战,定性数据分析(QDA)提供了一种处理自由格式数据的系统方法。然而,传统的QDA方法耗时且严重依赖人工。本文探讨了使用大型语言模型(LLM),包括GPT-4、Mistral和LLaMA-2,来改进RE中的QDA任务。我们的研究评估了LLM在归纳(零样本)和演绎(单样本、少样本)标注任务中的性能,结果表明,GPT-4在演绎设置中与人类分析师达成了高度一致,Cohen's Kappa分数超过0.7,而零样本性能仍然有限。详细的、上下文丰富的提示显著提高了标注准确性和一致性,尤其是在演绎场景中,并且GPT-4在重复运行中表现出很高的可靠性。这些发现突出了LLM在支持RE中的QDA方面的潜力,通过减少人工工作量同时保持标注质量。结构化的标签自动提供需求的可追溯性,并可以直接用作领域模型中的类,从而促进系统的软件设计。
🔬 方法详解
问题定义:论文旨在解决需求工程中定性数据分析(QDA)效率低下的问题。传统QDA方法依赖大量人工标注和分析,耗时且容易出错,难以快速将涉众需求转化为一致的软件设计。现有方法难以有效处理自由格式的需求描述,缺乏自动化和可扩展性。
核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大自然语言处理能力,自动化QDA过程中的标注和分析任务。通过设计合适的提示(prompts),引导LLMs理解需求描述的上下文,并进行准确的分类和标注,从而减少人工干预,提高效率和一致性。
技术框架:该研究采用了一种基于LLMs的QDA框架,主要包括以下阶段:1) 数据准备:收集和整理需求工程中的定性数据,例如涉众访谈记录、用户故事等。2) 提示工程:设计针对不同LLMs(GPT-4, Mistral, LLaMA-2)的提示,包括零样本、单样本和少样本提示。3) 模型推理:使用LLMs对数据进行标注和分类。4) 结果评估:使用Cohen's Kappa系数等指标评估LLMs的标注结果与人工标注结果的一致性。
关键创新:该研究的关键创新在于探索了LLMs在需求工程QDA中的应用潜力,并验证了演绎学习(单样本和少样本)在提高标注准确性和一致性方面的有效性。通过精心设计的提示,LLMs能够理解复杂的上下文信息,并进行高质量的标注,从而显著减少人工工作量。
关键设计:研究中关键的设计包括:1) 提示的设计:针对不同的LLMs和不同的标注任务,设计了详细的、上下文丰富的提示,以引导LLMs理解任务目标。2) 评估指标的选择:使用Cohen's Kappa系数来衡量LLMs的标注结果与人工标注结果的一致性,该指标考虑了偶然一致性,能够更准确地反映模型的性能。3) 对比实验的设计:通过对比零样本、单样本和少样本学习的性能,验证了演绎学习的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4在演绎标注(单样本、少样本)中表现出色,与人类分析师的Cohen's Kappa一致性系数超过0.7,表明其标注结果与人工标注高度一致。相比之下,零样本学习的性能有限,表明上下文丰富的提示对于LLMs在QDA任务中的应用至关重要。
🎯 应用场景
该研究成果可应用于软件开发的多个阶段,例如需求获取、需求分析和需求验证。通过自动化定性数据分析,可以加速需求工程过程,提高软件质量,并降低开发成本。此外,结构化的需求标签可以用于构建领域模型,促进系统化的软件设计。
📄 摘要(原文)
Requirements Engineering (RE) is essential for developing complex and regulated software projects. Given the challenges in transforming stakeholder inputs into consistent software designs, Qualitative Data Analysis (QDA) provides a systematic approach to handling free-form data. However, traditional QDA methods are time-consuming and heavily reliant on manual effort. In this paper, we explore the use of Large Language Models (LLMs), including GPT-4, Mistral, and LLaMA-2, to improve QDA tasks in RE. Our study evaluates LLMs' performance in inductive (zero-shot) and deductive (one-shot, few-shot) annotation tasks, revealing that GPT-4 achieves substantial agreement with human analysts in deductive settings, with Cohen's Kappa scores exceeding 0.7, while zero-shot performance remains limited. Detailed, context-rich prompts significantly improve annotation accuracy and consistency, particularly in deductive scenarios, and GPT-4 demonstrates high reliability across repeated runs. These findings highlight the potential of LLMs to support QDA in RE by reducing manual effort while maintaining annotation quality. The structured labels automatically provide traceability of requirements and can be directly utilized as classes in domain models, facilitating systematic software design.