Evaluating LLM-Based Goal Extraction in Requirements Engineering: Prompting Strategies and Their Limitations

📄 arXiv: 2604.22207v1 📥 PDF

作者: Anna Arnaudo, Riccardo Coppola, Maurizio Morisio, Flavio Giobergia, Andrea Bioddo, Angelo Bongiorno, Luca Dadone

分类: cs.SE, cs.AI, cs.CL

发布日期: 2026-04-24

备注: 10 pages, 1 figure. This contribution will be published in the conference proceedings of EASE 2026 Conference (https://conf.researchr.org/home/ease-2026/prompt-se-2026)


💡 一句话要点

提出基于LLM链和生成-评价机制的Goal-Oriented需求工程自动化方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 需求工程 大型语言模型 目标提取 自动化 生成-评价机制

📋 核心要点

  1. 需求工程中的大量文本和重复性工作给自动化带来了挑战,现有方法难以有效处理复杂的需求目标提取。
  2. 论文提出利用LLM链和生成-评价反馈机制,将需求工程中的目标提取过程分解为参与者识别、高低层目标提取等阶段。
  3. 实验结果表明,该方法在低层目标识别上达到61%的准确率,但更适合作为辅助工具而非完全替代人工。

📝 摘要(中文)

本文探讨了一种通过大型语言模型(LLM)链自动化Goal-Oriented需求工程(GORE)过程的可能方法,该方法通过三个阶段从软件文档中提取功能目标:参与者识别、高层和低层目标提取。为了实现这些功能,我们提出了一系列由精心设计的提示词驱动的LLM。我们实验了不同形式的上下文学习,并测量了输入数据和上下文示例之间的相似性,以更好地研究它们的影响。另一个关键要素是生成-评价机制,它被实现为一个涉及两个LLM的反馈循环。虽然该流程在低层目标识别的最后阶段达到了61%的准确率,但这些结果表明该方法最适合作为加速手动提取的工具,而不是完全替代。采用Zero-shot的反馈循环机制优于独立的Few-shot,一项消融研究表明,如果没有反馈循环,性能会略有下降。然而,我们报告说,反馈机制与Few-shot的结合并没有带来任何优势,这可能表明主要的性能瓶颈在于应用于“评价”LLM的提示策略。未来的研究将结合检索增强生成(RAG)和思维链(CoT)提示,以提高准确性,同时改进Shot示例的数量和质量。

🔬 方法详解

问题定义:论文旨在解决Goal-Oriented需求工程(GORE)中功能目标提取的自动化问题。现有方法在处理软件文档中的复杂需求目标时效率较低,且依赖大量人工干预,成本高昂。

核心思路:论文的核心思路是利用大型语言模型(LLM)的文本理解和生成能力,通过构建LLM链和引入生成-评价反馈机制,自动化从软件文档中提取功能目标的过程。这种方法旨在减少人工干预,提高目标提取的效率和准确性。

技术框架:该方法的技术框架包含三个主要阶段:1) 参与者识别:识别与需求相关的参与者;2) 高层目标提取:提取软件系统的高层目标;3) 低层目标提取:提取更具体、可操作的低层目标。每个阶段都由一个或多个LLM处理,并通过精心设计的提示词(Prompt)进行引导。此外,还引入了一个生成-评价反馈循环,其中一个LLM负责生成目标,另一个LLM负责评价生成目标的质量,并将评价结果反馈给生成LLM进行改进。

关键创新:该方法的主要创新点在于:1) 将LLM链应用于GORE过程,实现端到端的自动化目标提取;2) 引入生成-评价反馈机制,提高目标提取的质量和准确性;3) 实验分析了不同上下文学习策略(Few-shot, Zero-shot)以及输入数据与上下文示例相似性对性能的影响。与传统方法相比,该方法减少了人工干预,提高了目标提取的效率。

关键设计:论文实验了不同的上下文学习策略,包括Few-shot和Zero-shot。生成-评价反馈循环的关键在于“评价”LLM的提示策略,实验结果表明,该策略对整体性能有显著影响。论文还分析了输入数据与上下文示例之间的相似性,以优化上下文学习的效果。未来的研究方向包括集成检索增强生成(RAG)和思维链(CoT)提示,以进一步提高准确性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在低层目标识别上达到了61%的准确率。采用Zero-shot的反馈循环机制优于独立的Few-shot。消融研究表明,如果没有反馈循环,性能会略有下降。但反馈机制与Few-shot的结合并没有带来任何优势,这表明“评价”LLM的提示策略是性能瓶颈。

🎯 应用场景

该研究成果可应用于软件需求分析、系统设计等领域,帮助开发人员更高效地从文档中提取需求目标,降低开发成本,缩短开发周期。未来可扩展到其他自然语言处理任务,如合同条款提取、法律文本分析等。

📄 摘要(原文)

Due to the textual and repetitive nature of many Requirements Engineering (RE) artefacts, Large Language Models (LLMs) have proven useful to automate their generation and processing. In this paper, we discuss a possible approach for automating the Goal-Oriented Requirements Engineering (GORE) process by extracting functional goals from software documentation through three phases: actor identification, high and low-level goal extraction. To implement these functionalities, we propose a chain of LLMs fed with engineered prompts. We experimented with different variants of in-context learning and measured the similarities between input data and in-context examples to better investigate their impact. Another key element is the generation-critic mechanism, implemented as a feedback loop involving two LLMs. Although the pipeline achieved 61% accuracy in low-level goal identification, the final stage, these results indicate the approach is best suited as a tool to accelerate manual extraction rather than as a full replacement. The feedback-loop mechanism with Zero-shot outperformed stand-alone Few-shot, with an ablation study suggesting that performance slightly degrades without the feedback cycle. However, we reported that the combination of the feedback mechanism with Few-shot does not deliver any advantage, possibly suggesting that the primary performance ceiling is the prompting strategy applied to the 'critic' LLM. Together with the refinement of both the quantity and quality of the Shot examples, future research will integrate Retrieval-Augmented Generation (RAG) and Chain-of-Thought (CoT) prompting to improve accuracy.