Evaluating Large Language Models for Security Bug Report Prediction

作者: Farnaz Soltaniani, Shoaib Razzaq, Mohammad Ghafari

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-01-30

💡 一句话要点

评估大型语言模型在安全漏洞报告预测中的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全漏洞报告预测 提示工程 模型微调 软件安全

📋 核心要点

现有安全漏洞报告检测方法在早期识别方面存在不足，影响漏洞缓解的及时性。
论文探索了基于提示工程和微调两种策略，利用大型语言模型提升安全漏洞报告的预测能力。
实验表明，提示工程方法召回率高但精度低，微调方法精度高但召回率低，推理速度差异显著。

📝 摘要（中文）

提前检测安全漏洞报告（SBRs）对于及时缓解漏洞至关重要。本文评估了基于提示工程和微调方法，利用大型语言模型（LLMs）预测SBRs的有效性。研究结果表明，这两种方法之间存在明显的权衡。基于提示的专有模型对SBRs表现出最高的敏感性，在所有数据集上的平均G-measure为77%，召回率为74%，但代价是较高的假阳性率，导致平均精度仅为22%。相比之下，微调模型表现出相反的行为，总体G-measure较低，为51%，但精度显著提高，达到75%，但召回率降低至36%。虽然构建微调模型需要一次性投入，但在最大数据集上的推理速度比专有模型快50倍。这些发现表明，有必要进一步研究如何利用LLMs进行SBR预测。

🔬 方法详解

问题定义：论文旨在解决安全漏洞报告（SBRs）的早期预测问题。现有方法在准确性和效率之间难以平衡，高召回率往往伴随着高误报率，影响漏洞修复的效率。

核心思路：论文的核心思路是探索两种利用大型语言模型（LLMs）进行SBR预测的策略：基于提示工程的方法和基于微调的方法。通过对比两种方法的性能，找到在精度和召回率之间取得更好平衡的方案。

技术框架：整体流程包括：1) 数据预处理，将安全漏洞报告转化为LLM可以理解的输入格式；2) 使用基于提示工程的LLM或微调后的LLM进行预测；3) 评估预测结果的性能指标，包括精度、召回率和G-measure。

关键创新：论文的关键创新在于对比了基于提示工程和微调两种不同的LLM应用策略在SBR预测任务中的表现。这两种方法代表了利用LLM的不同范式，前者无需训练，后者需要针对特定任务进行优化。

关键设计：论文使用了多种数据集进行评估，并针对不同的LLM模型进行了实验。对于微调方法，可能涉及选择合适的预训练模型、设计损失函数以及调整超参数等技术细节。具体的提示工程方法和微调细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于提示工程的专有模型在SBR预测中具有较高的召回率（74%），但精度较低（22%）。微调模型则表现出较高的精度（75%），但召回率较低（36%）。此外，微调模型的推理速度比专有模型快50倍，表明在实际应用中具有更高的效率。

🎯 应用场景

该研究成果可应用于软件安全领域，帮助安全工程师更早地发现潜在的安全漏洞，从而及时修复并降低安全风险。通过集成到软件开发生命周期中，可以提高软件的整体安全性，减少因漏洞利用造成的经济损失和声誉损害。未来的研究可以探索更有效的LLM应用策略，例如结合提示工程和微调的混合方法。

📄 摘要（原文）

Early detection of security bug reports (SBRs) is critical for timely vulnerability mitigation. We present an evaluation of prompt-based engineering and fine-tuning approaches for predicting SBRs using Large Language Models (LLMs). Our findings reveal a distinct trade-off between the two approaches. Prompted proprietary models demonstrate the highest sensitivity to SBRs, achieving a G-measure of 77% and a recall of 74% on average across all the datasets, albeit at the cost of a higher false-positive rate, resulting in an average precision of only 22%. Fine-tuned models, by contrast, exhibit the opposite behavior, attaining a lower overall G-measure of 51% but substantially higher precision of 75% at the cost of reduced recall of 36%. Though a one-time investment in building fine-tuned models is necessary, the inference on the largest dataset is up to 50 times faster than that of proprietary models. These findings suggest that further investigations to harness the power of LLMs for SBR prediction are necessary.

Evaluating Large Language Models for Security Bug Report Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理