LPASS: Linear Probes as Stepping Stones for vulnerability detection using compressed LLMs
作者: Luis Ibanez-Lissen, Lorena Gonzalez-Manzano, Jose Maria de Fuentes, Nicolas Anciaux
分类: cs.CR, cs.AI
发布日期: 2025-05-30
💡 一句话要点
LPASS:利用线性探针加速压缩LLM的漏洞检测,提升效率与性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 漏洞检测 大型语言模型 模型压缩 线性探针 层剪枝
📋 核心要点
- 现有漏洞检测方法依赖计算密集型的LLM微调和压缩,效率较低,需要更高效的性能评估方法。
- LPASS方法利用线性探针在LLM压缩前进行性能预估,指导层剪枝,降低计算成本并保持精度。
- 实验表明,LPASS能有效压缩BERT和Gemma模型,在漏洞检测中达到甚至超越原始模型的性能。
📝 摘要(中文)
大型语言模型(LLMs)正被广泛应用于网络安全领域,其中之一是检测脆弱代码。为了提高效率和效果,压缩和微调技术分别被开发出来。然而,它们都需要大量的计算资源。本文分析了如何使用线性探针(LPs)在早期阶段(微调之前)估计压缩LLM的性能。我们还展示了它们在应用层剪枝压缩时设置截止点的适用性。我们的方法,名为$LPASS$,应用于BERT和Gemma,用于检测480k C/C++样本中MITRE的Top 25最危险的12个漏洞。LPs可以在142.97秒内计算完成,并提供关键发现:(1)分别可以移除33.3%和72.2%的层,而不会损失精度;(2)它们提供了对微调后和压缩后模型有效性的早期估计,最低和平均精度误差分别为3%和8.68%。基于$LPASS$的LLM优于现有技术,在多类漏洞检测中达到86.9%的准确率。有趣的是,基于$LPASS$的Gemma压缩版本在F1分数上优于原始版本1.6%,同时节省了29.4%和23.8%的训练和推理时间,以及42.98%的模型大小。
🔬 方法详解
问题定义:现有基于LLM的漏洞检测方法,在模型压缩和微调过程中,需要耗费大量的计算资源进行性能评估。如何在模型压缩的早期阶段,快速且准确地评估压缩后模型的性能,成为了一个亟待解决的问题。现有方法缺乏在压缩前对模型性能的有效预估手段,导致盲目压缩,可能造成性能损失。
核心思路:LPASS的核心思路是利用线性探针(Linear Probes)作为压缩LLM性能的早期评估手段。线性探针是一种轻量级的模型评估方法,通过在预训练模型的中间层训练线性分类器,来评估该层所包含的信息。通过分析不同层的线性探针的性能,可以预测压缩后模型的性能,并指导层剪枝过程。
技术框架:LPASS方法主要包含以下几个阶段:1) 线性探针训练:在LLM的每一层或部分层训练线性分类器,得到各个层的线性探针。2) 性能评估:根据线性探针的性能(如准确率、F1-score等),评估对应层所包含的漏洞检测相关信息。3) 层剪枝决策:根据线性探针的性能,决定哪些层可以被移除,以达到模型压缩的目的。4) 模型压缩与微调:根据层剪枝决策,对LLM进行压缩,并进行微调,以恢复性能。
关键创新:LPASS的关键创新在于将线性探针技术应用于LLM压缩的早期阶段,实现了对压缩后模型性能的快速预估。与传统的压缩方法相比,LPASS能够在压缩前就对模型的性能进行评估,从而避免了盲目压缩可能造成的性能损失。此外,LPASS还能够指导层剪枝过程,从而实现更有效的模型压缩。
关键设计:LPASS的关键设计包括:1) 线性探针的选择:选择合适的线性分类器,如逻辑回归、支持向量机等。2) 线性探针的训练数据:使用漏洞检测数据集训练线性探针。3) 层剪枝策略:根据线性探针的性能,设定合适的层剪枝阈值。4) 微调策略:在模型压缩后,使用漏洞检测数据集对模型进行微调,以恢复性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LPASS方法能够在不损失精度的情况下,移除BERT模型33.3%的层,移除Gemma模型72.2%的层。基于LPASS的LLM在多类漏洞检测中达到86.9%的准确率,优于现有技术。基于LPASS的Gemma压缩版本在F1分数上优于原始版本1.6%,同时节省了29.4%和23.8%的训练和推理时间,以及42.98%的模型大小。
🎯 应用场景
LPASS方法可广泛应用于软件安全、代码审计等领域,帮助安全工程师快速检测和修复代码漏洞。通过压缩LLM,降低部署成本,使其能够在资源受限的环境中运行,例如嵌入式系统、移动设备等。该研究有助于推动AI在网络安全领域的应用,提高软件系统的安全性。
📄 摘要(原文)
Large Language Models (LLMs) are being extensively used for cybersecurity purposes. One of them is the detection of vulnerable codes. For the sake of efficiency and effectiveness, compression and fine-tuning techniques are being developed, respectively. However, they involve spending substantial computational efforts. In this vein, we analyse how Linear Probes (LPs) can be used to provide an estimation on the performance of a compressed LLM at an early phase -- before fine-tuning. We also show their suitability to set the cut-off point when applying layer pruning compression. Our approach, dubbed $LPASS$, is applied in BERT and Gemma for the detection of 12 of MITRE's Top 25 most dangerous vulnerabilities on 480k C/C++ samples. LPs can be computed in 142.97 s. and provide key findings: (1) 33.3 \% and 72.2\% of layers can be removed, respectively, with no precision loss; (2) they provide an early estimate of the post-fine-tuning and post-compression model effectiveness, with 3\% and 8.68\% as the lowest and average precision errors, respectively. $LPASS$-based LLMs outperform the state of the art, reaching 86.9\% of accuracy in multi-class vulnerability detection. Interestingly, $LPASS$-based compressed versions of Gemma outperform the original ones by 1.6\% of F1-score at a maximum while saving 29.4 \% and 23.8\% of training and inference time and 42.98\% of model size.