How Effective are Generative Large Language Models in Performing Requirements Classification?
作者: Waad Alhoshan, Alessio Ferrari, Liping Zhao
分类: cs.CL, cs.AI, cs.SE
发布日期: 2025-04-23
💡 一句话要点
评估生成式大语言模型在需求分类任务中的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 需求分类 生成式大语言模型 自然语言处理 需求工程 模型评估
📋 核心要点
- 现有需求分类方法对生成式大语言模型(LLMs)的探索不足,限制了上下文感知能力的应用。
- 该研究评估了Bloom、Gemma和Llama三种生成式LLMs在二元和多类需求分类任务中的有效性。
- 实验结果表明,提示设计、LLM架构和数据集特性对模型性能有不同程度的影响,需针对任务优化。
📝 摘要(中文)
近年来,基于Transformer的大语言模型(LLMs)彻底改变了自然语言处理(NLP)领域,生成式模型为需要上下文感知文本生成的任务开辟了新的可能性。需求工程(RE)也见证了LLMs在不同任务中的实验激增,包括追踪链接检测、法规遵从等。需求分类是RE中的一项常见任务。虽然像BERT这样的非生成式LLMs已成功应用于此任务,但对生成式LLMs的探索有限。这种差距提出了一个重要问题:在需求分类中,能够产生上下文感知输出的生成式LLMs表现如何?在本研究中,我们探讨了三种生成式LLMs——Bloom、Gemma和Llama——在执行二元和多类需求分类中的有效性。我们设计了一项广泛的实验研究,涉及三个广泛使用的数据集(PROMISE NFR、Functional-Quality和SecReq)上的400多个实验。我们的研究得出结论,虽然提示设计和LLM架构等因素普遍重要,但数据集变化等其他因素具有更情境化的影响,具体取决于分类任务的复杂性。这一见解可以指导未来的模型开发和部署策略,重点是优化提示结构,并将模型架构与特定任务的需求对齐,以提高性能。
🔬 方法详解
问题定义:论文旨在评估生成式大语言模型在需求分类任务中的表现。现有方法主要集中于非生成式模型,未能充分利用生成式模型上下文感知的优势。现有方法的痛点在于缺乏对生成式模型在需求分类任务中性能的系统性评估和分析。
核心思路:论文的核心思路是探索不同的生成式大语言模型(Bloom、Gemma、Llama)在需求分类任务中的表现,并分析影响模型性能的关键因素,如提示设计、模型架构和数据集特性。通过对比不同模型的性能,揭示生成式模型在需求分类中的潜力和局限性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择三个常用的需求数据集(PROMISE NFR、Functional-Quality和SecReq);2) 选择三种生成式大语言模型(Bloom、Gemma和Llama);3) 设计不同的提示策略;4) 在不同数据集上进行二元和多类需求分类实验;5) 分析实验结果,评估模型性能,并探讨影响性能的关键因素。
关键创新:该研究的关键创新在于系统性地评估了生成式大语言模型在需求分类任务中的有效性,并分析了影响模型性能的关键因素。与以往研究主要关注非生成式模型不同,该研究填补了生成式模型在需求分类领域应用的空白。
关键设计:实验设计包括:1) 使用不同的提示策略,例如零样本学习和少样本学习;2) 针对不同的数据集和分类任务,调整模型参数;3) 使用准确率、精确率、召回率和F1值等指标评估模型性能;4) 通过统计分析方法,分析不同因素对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
该研究在三个广泛使用的数据集上进行了超过400个实验,结果表明,提示设计和LLM架构对模型性能至关重要。同时,数据集的特性对模型性能也有显著影响,尤其是在复杂的分类任务中。该研究为未来模型开发和部署提供了有价值的指导,强调了优化提示结构和调整模型架构以适应特定任务需求的重要性。
🎯 应用场景
该研究成果可应用于需求工程领域,帮助工程师更有效地对需求进行分类,从而提高软件开发的效率和质量。通过选择合适的生成式大语言模型和优化提示策略,可以自动化需求分类过程,减少人工干预,并提高分类的准确性。此外,该研究的结论可以指导未来模型开发和部署策略,促进生成式模型在需求工程领域的更广泛应用。
📄 摘要(原文)
In recent years, transformer-based large language models (LLMs) have revolutionised natural language processing (NLP), with generative models opening new possibilities for tasks that require context-aware text generation. Requirements engineering (RE) has also seen a surge in the experimentation of LLMs for different tasks, including trace-link detection, regulatory compliance, and others. Requirements classification is a common task in RE. While non-generative LLMs like BERT have been successfully applied to this task, there has been limited exploration of generative LLMs. This gap raises an important question: how well can generative LLMs, which produce context-aware outputs, perform in requirements classification? In this study, we explore the effectiveness of three generative LLMs-Bloom, Gemma, and Llama-in performing both binary and multi-class requirements classification. We design an extensive experimental study involving over 400 experiments across three widely used datasets (PROMISE NFR, Functional-Quality, and SecReq). Our study concludes that while factors like prompt design and LLM architecture are universally important, others-such as dataset variations-have a more situational impact, depending on the complexity of the classification task. This insight can guide future model development and deployment strategies, focusing on optimising prompt structures and aligning model architectures with task-specific needs for improved performance.