Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models
作者: Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A. Gerosa
分类: cs.SE, cs.LG
发布日期: 2025-05-30
备注: 35 pages, 2 figures, 9 tables, Pre-print for Science of Computer Programming
💡 一句话要点
利用大型语言模型进行问题分类,扩展数据并评估新模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 问题分类 大型语言模型 软件工程 自动化 GPT-4o DeepSeek R1 F1得分
📋 核心要点
- 现有问题分类方法依赖大量训练数据,人工分类成本高且缺乏扩展性,难以满足软件工程实践需求。
- 论文提出基于大型语言模型(LLM)的自动化问题分类方法,旨在减少对大量训练数据的依赖,同时保持分类的可靠性。
- 实验结果表明,GPT-4o在问题分类任务中表现最佳,在NLBSE 2023数据集上微调后,F1得分比DeepSeek R1高出20%。
📝 摘要(中文)
在软件工程中,高效的问题报告优先级排序有助于优化资源分配和信息恢复。然而,手动问题分类既费力又缺乏可扩展性。作为替代方案,许多开源软件(OSS)项目采用自动化流程来完成此任务,但这种方法通常依赖于大型数据集进行充分训练。传统上,机器学习技术已被用于问题分类。最近,大型语言模型(LLM)已成为解决一系列软件工程挑战的强大工具,包括代码和测试生成、将新需求映射到遗留软件端点以及进行代码审查。本研究调查了一种基于LLM的自动化问题分类方法。通过利用这些模型的能力,我们旨在开发一个强大的系统来优先处理问题报告,从而减少对大量训练数据的需求,同时保持分类的可靠性。在我们的研究中,我们开发了一种基于LLM的方法,通过选择两个最突出的大型语言模型来准确标记问题。然后,我们比较了它们在多个数据集上的性能。我们的研究结果表明,GPT-4o在对NLBSE 2024竞赛中的问题进行分类时取得了最佳结果。此外,GPT-4o优于DeepSeek R1,当两个模型都在来自NLBSE 2023竞赛的相同数据集上训练时,GPT-4o的F1得分高出20%,该数据集比NLBSE 2024数据集大十倍。微调后的GPT-4o模型获得了80.7%的平均F1得分,而微调后的DeepSeek R1模型获得了59.33%。增加数据集大小并没有提高F1得分,从而降低了对构建高效问题分类解决方案的大规模数据集的依赖。
🔬 方法详解
问题定义:论文旨在解决软件工程中问题报告的自动分类问题。现有方法,如传统的机器学习技术,通常需要大量标注数据进行训练,这在实际应用中成本高昂且难以实现。此外,手动分类耗时费力,难以扩展到大型项目。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大zero-shot或few-shot学习能力,减少对大量训练数据的依赖。通过prompt工程和微调,使LLM能够准确地对问题报告进行分类。
技术框架:整体流程包括:1) 数据收集:使用NLBSE 2023和NLBSE 2024竞赛的数据集。2) 模型选择:选择GPT-4o和DeepSeek R1作为基础模型。3) 微调:使用少量标注数据对模型进行微调。4) 评估:在测试集上评估模型的性能,使用F1 score作为评估指标。
关键创新:论文的关键创新在于探索了大型语言模型在问题分类任务中的应用潜力,并验证了即使在少量数据的情况下,LLM也能取得优异的性能。这降低了对大规模标注数据的需求,使得自动化问题分类更具可行性。
关键设计:论文的关键设计包括:1) 使用F1 score作为评估指标,更全面地衡量模型的性能。2) 对比了GPT-4o和DeepSeek R1两个模型的性能,为实际应用提供了参考。3) 实验结果表明,增加数据集大小并没有显著提高F1得分,这表明LLM在少量数据下也能达到较好的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在NLBSE 2024竞赛中表现最佳。在NLBSE 2023数据集上微调后,GPT-4o的平均F1得分为80.7%,而DeepSeek R1为59.33%,GPT-4o的F1得分高出20%。此外,增加数据集大小并没有显著提高F1得分,表明LLM在少量数据下也能达到较好的性能。
🎯 应用场景
该研究成果可应用于软件开发和维护的多个环节,例如自动将问题报告分配给合适的开发人员、自动识别安全漏洞、自动生成问题修复建议等。通过提高问题处理效率,可以缩短软件开发周期、降低维护成本,并提升软件质量。
📄 摘要(原文)
Effective prioritization of issue reports in software engineering helps to optimize resource allocation and information recovery. However, manual issue classification is laborious and lacks scalability. As an alternative, many open source software (OSS) projects employ automated processes for this task, yet this method often relies on large datasets for adequate training. Traditionally, machine learning techniques have been used for issue classification. More recently, large language models (LLMs) have emerged as powerful tools for addressing a range of software engineering challenges, including code and test generation, mapping new requirements to legacy software endpoints, and conducting code reviews. The following research investigates an automated approach to issue classification based on LLMs. By leveraging the capabilities of such models, we aim to develop a robust system for prioritizing issue reports, mitigating the necessity for extensive training data while also maintaining reliability in classification. In our research, we developed an LLM-based approach for accurately labeling issues by selecting two of the most prominent large language models. We then compared their performance across multiple datasets. Our findings show that GPT-4o achieved the best results in classifying issues from the NLBSE 2024 competition. Moreover, GPT-4o outperformed DeepSeek R1, achieving an F1 score 20% higher when both models were trained on the same dataset from the NLBSE 2023 competition, which was ten times larger than the NLBSE 2024 dataset. The fine-tuned GPT-4o model attained an average F1 score of 80.7%, while the fine-tuned DeepSeek R1 model achieved 59.33%. Increasing the dataset size did not improve the F1 score, reducing the dependence on massive datasets for building an efficient solution to issue classification.