Automating the Detection of Requirement Dependencies Using Large Language Models

📄 arXiv: 2602.22456 📥 PDF

作者: Ikram Darif, Feifei Niu, Manel Abdellatif, Lionel C. Briand, Ramesh S., Arun Adiththan

分类: cs.SE, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出LEREDD,利用大语言模型自动检测需求依赖关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 需求工程 需求依赖关系 大型语言模型 检索增强生成 上下文学习 自然语言处理 软件工程 自动化

📋 核心要点

  1. 现有方法难以应对现代软件系统中大量复杂且耦合的需求,以及自然语言需求的模糊性和不断变化。
  2. LEREDD利用检索增强生成(RAG)和上下文学习(ICL),直接从自然语言需求中识别不同的依赖关系类型。
  3. 实验结果表明,LEREDD在依赖关系分类和细粒度依赖关系检测方面优于现有方法,F1分数提升显著。

📝 摘要(中文)

需求之间存在固有的依赖关系,识别这些依赖关系至关重要,因为它支撑着关键决策并影响软件开发过程中的一系列活动。然而,这项任务具有挑战性,尤其是在现代软件系统中,因为存在大量复杂且耦合的需求。自然语言(NL)需求的模糊性和不断变化进一步加剧了这些挑战。因此,需求依赖关系检测经常被忽视或手动执行。大型语言模型(LLM)在自然语言处理方面表现出强大的能力,为需求相关任务提供了一个有希望的途径。虽然它们已显示出增强各种需求工程任务的能力,但它们在识别需求依赖关系方面的有效性仍未得到探索。在本文中,我们介绍了一种基于LLM的自动化需求依赖关系检测方法LEREDD,该方法利用检索增强生成(RAG)和上下文学习(ICL)。它旨在直接从自然语言需求中识别不同的依赖关系类型。我们针对两个最先进的基线对LEREDD进行了实证评估。结果表明,LEREDD提供了高度准确的依赖和非依赖需求分类,准确率达到0.93,F1分数为0.84,其中非依赖情况的平均F1分数为0.96。LEREDD优于零样本LLM和基线,尤其是在检测细粒度依赖关系类型方面,在Requires依赖关系的F1分数方面,相对于基线,平均相对增益分别为94.87%和105.41%。我们还提供了一个包含三个不同系统的813个需求对的带注释的需求依赖关系数据集,以支持可重复性和未来的研究。

🔬 方法详解

问题定义:论文旨在解决软件需求工程中自动检测需求依赖关系的问题。现有方法,特别是手动方法,效率低下且容易出错,难以应对现代软件系统中大量复杂且不断变化的需求。现有基于规则或机器学习的方法泛化能力较弱,难以适应不同类型的依赖关系和不同的软件系统。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的自然语言理解和生成能力,结合检索增强生成(RAG)和上下文学习(ICL)技术,实现对需求依赖关系的自动检测。通过RAG,LLM可以检索相关的上下文信息,提高依赖关系识别的准确性。通过ICL,LLM可以从少量示例中学习,快速适应新的任务和领域。

技术框架:LEREDD的整体框架包括以下几个主要阶段:1) 需求输入:输入待分析的自然语言需求文档。2) 检索增强:利用RAG技术,从需求文档或其他知识库中检索与当前需求相关的上下文信息。3) 上下文学习:利用ICL技术,将少量带有标签的示例(即需求对及其依赖关系类型)作为上下文输入LLM。4) 依赖关系预测:LLM根据输入的需求、上下文信息和示例,预测需求对之间的依赖关系类型。5) 结果输出:输出需求对及其预测的依赖关系类型。

关键创新:论文的关键创新在于将RAG和ICL技术与LLM相结合,用于自动检测需求依赖关系。与传统的基于规则或机器学习的方法相比,LEREDD具有更强的泛化能力和适应性,能够处理不同类型的依赖关系和不同的软件系统。此外,论文还提供了一个带注释的需求依赖关系数据集,为未来的研究提供了基准。

关键设计:论文中,RAG模块使用余弦相似度来检索与当前需求最相关的上下文信息。ICL模块选择与当前需求最相似的示例作为上下文。LLM使用预训练的语言模型(例如,GPT-3)进行微调,以提高依赖关系识别的准确性。损失函数采用交叉熵损失函数,优化目标是最小化预测的依赖关系类型与真实标签之间的差异。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LEREDD在需求依赖关系分类方面取得了显著的性能提升,准确率达到0.93,F1分数为0.84。在检测细粒度依赖关系类型方面,LEREDD优于零样本LLM和基线方法,在Requires依赖关系的F1分数方面,相对于基线,平均相对增益分别为94.87%和105.41%。这些结果表明,LEREDD是一种有效的自动化需求依赖关系检测方法。

🎯 应用场景

该研究成果可应用于软件需求工程的多个方面,例如需求分析、需求跟踪、需求变更管理等。通过自动检测需求依赖关系,可以提高需求分析的效率和准确性,减少需求变更带来的风险,从而提高软件开发的质量和效率。未来,该技术可以进一步应用于更复杂的软件系统和更广泛的领域。

📄 摘要(原文)

Requirements are inherently interconnected through various types of dependencies. Identifying these dependencies is essential, as they underpin critical decisions and influence a range of activities throughout software development. However, this task is challenging, particularly in modern software systems, given the high volume of complex, coupled requirements. These challenges are further exacerbated by the ambiguity of Natural Language (NL) requirements and their constant change. Consequently, requirement dependency detection is often overlooked or performed manually. Large Language Models (LLMs) exhibit strong capabilities in NL processing, presenting a promising avenue for requirement-related tasks. While they have shown to enhance various requirements engineering tasks, their effectiveness in identifying requirement dependencies remains unexplored. In this paper, we introduce LEREDD, an LLM-based approach for automated detection of requirement dependencies that leverages Retrieval-Augmented Generation (RAG) and In-Context Learning (ICL). It is designed to identify diverse dependency types directly from NL requirements. We empirically evaluate LEREDD against two state-of-the-art baselines. The results show that LEREDD provides highly accurate classification of dependent and non-dependent requirements, achieving an accuracy of 0.93, and an F1 score of 0.84, with the latter averaging 0.96 for non-dependent cases. LEREDD outperforms zero-shot LLMs and baselines, particularly in detecting fine-grained dependency types, where it yields average relative gains of 94.87% and 105.41% in F1 scores for the Requires dependency over the baselines. We also provide an annotated dataset of requirement dependencies encompassing 813 requirement pairs across three distinct systems to support reproducibility and future research.