Dissecting the Black Box: Circuit-Level Analysis of LLM Vulnerability Detection

📄 arXiv: 2605.29901v1 📥 PDF

作者: Syafiq Al Atiiq, Chun Zhou, Christian Gehrmann

分类: cs.CR, cs.LG

发布日期: 2026-05-28

备注: 11 pages, 6 figures. Supported by the Wallenberg AI, Autonomous Systems and Software Program (WASP)


💡 一句话要点

通过电路级分析揭示LLM漏洞检测机制,发现其依赖安全模式识别而非直接漏洞检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM漏洞检测 机制可解释性 电路级分析 安全模式识别 注意力头 MLP神经元 消融实验 Gemma-2-2b

📋 核心要点

  1. 现有LLM漏洞检测方法缺乏可解释性,难以理解其内部推理机制,阻碍了针对性改进。
  2. 该研究通过电路级分析,追踪LLM在漏洞检测时的计算路径,揭示其依赖安全模式识别而非直接漏洞检测。
  3. 实验表明,特定注意力头和MLP神经元在漏洞检测中起关键作用,消融实验验证了其因果性,并量化了影响。

📝 摘要(中文)

大型语言模型(LLM)能够检测软件漏洞,但它们实际上是如何识别易受攻击的代码的?本文利用机制可解释性来解决这个问题,即分析神经网络的内部计算以理解其推理过程。使用Circuit Tracer对Gemma-2-2b进行分析,追踪模型将472个C/C++代码样本分类为易受攻击或安全时激活的计算路径。分析揭示了一个令人惊讶的发现:模型主要依赖于安全检测器,即识别安全编码模式的注意力头,而不是直接检测漏洞签名。当这些安全检测器未能激活时,模型将代码分类为易受攻击。确定了关键的神经组件:早期层(L5、L7)中专注于安全模式的特定注意力头,以及第7层中编码与漏洞相关特征的多层感知器(MLP)神经元。消融实验证实了它们的因果作用;移除第11层将漏洞检测准确率从100%降至6%,而仅消融第7层中的20个神经元就将其降低了50%。研究结果表明,LLM漏洞检测使用稀疏的、可解释的电路(仅占模型容量的16%),从而能够对安全预测进行电路级解释,并有针对性地改进检测系统。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在软件漏洞检测中,其决策过程如同黑盒的问题。现有方法缺乏可解释性,无法理解LLM如何识别漏洞,这限制了我们对LLM安全能力的信任,也阻碍了针对性地改进LLM的漏洞检测能力。

核心思路:论文的核心思路是通过机制可解释性方法,深入分析LLM内部的计算过程,特别是关注在漏洞检测任务中被激活的神经元和连接。通过追踪和分析这些“电路”,揭示LLM进行漏洞检测的逻辑和依据,从而打破黑盒,理解其推理过程。

技术框架:论文使用Circuit Tracer工具,对Gemma-2-2b模型进行分析。整体流程包括:1) 准备包含易受攻击和安全代码样本的数据集;2) 使用LLM对代码样本进行分类;3) 利用Circuit Tracer追踪LLM在分类过程中的计算路径,识别关键的注意力头和MLP神经元;4) 进行消融实验,验证这些关键组件的因果作用。

关键创新:论文最重要的创新点在于发现LLM在漏洞检测中,主要依赖于识别安全编码模式的“安全检测器”,而不是直接检测漏洞签名。这与传统的漏洞检测方法不同,后者通常侧重于识别已知的漏洞模式。这种“安全检测”的策略,可能使得LLM能够识别一些新型的、未知的漏洞。

关键设计:论文的关键设计包括:1) 使用Circuit Tracer进行电路追踪,这是一种用于分析神经网络内部计算过程的工具;2) 通过消融实验验证关键神经元的因果作用,例如,移除第11层或消融第7层的特定神经元;3) 关注特定层(L5、L7)的注意力头和MLP神经元,这些组件被认为是漏洞检测的关键。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM漏洞检测依赖于稀疏的、可解释的电路,仅占模型容量的16%。移除第11层导致漏洞检测准确率从100%降至6%,而仅消融第7层中的20个神经元就使其降低了50%。这些结果突出了特定注意力头和MLP神经元在漏洞检测中的关键作用。

🎯 应用场景

该研究成果可应用于提升LLM漏洞检测系统的可解释性和可靠性。通过理解LLM的决策过程,可以针对性地改进其检测能力,例如,增强其安全模式识别能力或减少对安全模式的过度依赖。此外,该研究方法也可用于分析其他安全相关的LLM应用,如恶意代码检测和安全策略生成。

📄 摘要(原文)

Large language models (LLMs) can detect software vulnerabilities, but how do they actually identify vulnerable code? We address this question using mechanistic interpretability; analyzing the internal computations of a neural network to understand its reasoning process.Using Circuit Tracer on Gemma-2-2b, we trace the computational pathways activated when the model classifies 472 C/C++ code samples as vulnerable or safe. Our analysis reveals a surprising finding: the model primarily relies on safety detectors, attention heads that recognize safe coding patterns, rather than directly detecting vulnerability signatures. When these safety detectors fail to activate, the model classifies code as vulnerable. We identify the critical neural components: specific attention heads in early layers (L5, L7) that focus on safety patterns, and Multilayer Perceptron (MLP) neurons in Layer 7 that encode vulnerability-related features. Ablation experiments confirm their causal role; removing Layer 11 drops vulnerability detection accuracy from 100% to 6%, while ablating just 20 neurons in Layer 7 reduces it by 50%.Our findings show that LLM vulnerability detection uses sparse, interpretable circuits (only 16% of model capacity), enabling circuit-level explanations for security predictions and targeted improvements to detection systems.