SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models

📄 arXiv: 2509.21843v1 📥 PDF

作者: Jingkai Guo, Chaitali Chakrabarti, Deliang Fan

分类: cs.CR, cs.CL, cs.LG

发布日期: 2025-09-26

备注: 10 pages, 4 figures, 5 tables, 2 equations. Topics: Bit-flip attacks, adversarial attacks, large language models (LLMs)


💡 一句话要点

提出SBFA:单比特翻转攻击破解大语言模型,揭示严重安全隐患

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 比特翻转攻击 模型安全 对抗攻击 参数敏感度分析 故障注入 深度学习

📋 核心要点

  1. 现有比特翻转攻击(BFA)方法缺乏灵活性,通常仅针对整数或浮点模型,且在浮点模型中易产生数值错误。
  2. SBFA通过迭代搜索和ImpactScore指标,寻找对模型影响最大且扰动后仍在良性范围内的单个比特进行翻转。
  3. 实验表明,SBFA仅需翻转单个比特,即可显著降低Qwen、LLaMA和Gemma等模型的精度至随机水平以下。

📝 摘要(中文)

随着大语言模型(LLMs)的大规模在线部署,其模型完整性已成为一个紧迫的安全问题。先前的比特翻转攻击(BFAs)作为一种流行的AI权重内存故障注入技术,可以严重损害深度神经网络(DNNs)。研究表明,即使LLMs具有模块化和冗余性,少量的对抗性比特翻转也会导致其灾难性的精度下降。然而,现有的BFA方法通常只关注整数或浮点模型,限制了攻击的灵活性。此外,在浮点模型中,随机比特翻转通常会导致参数变为极端值,从而导致数值运行时错误。本文首次提出了SBFA(Sneaky Bit-Flip Attack),它仅通过单个比特翻转就能使LLM性能崩溃,同时保持扰动值在良性的层级权重分布范围内。这是通过迭代搜索和基于参数敏感度指标ImpactScore的排序来实现的,该指标结合了梯度敏感度和受良性层级权重分布约束的扰动范围。还提出了一种新颖的轻量级SKIP搜索算法,大大降低了搜索复杂度,从而使SOTA LLMs的SBFA搜索仅需花费数十分钟。在Qwen、LLaMA和Gemma模型上,SBFA仅通过单个比特翻转,成功地将BF16和INT8数据格式的MMLU和SST-2的精度降低到随机水平以下。令人惊讶的是,在数十亿个参数中翻转单个比特揭示了SOTA LLM模型的严重安全问题。

🔬 方法详解

问题定义:现有比特翻转攻击方法存在局限性,无法同时有效攻击整数和浮点模型。在浮点模型中,随机翻转比特容易导致参数值超出正常范围,引发数值计算错误,使得攻击不够隐蔽。因此,需要一种更隐蔽、更高效的攻击方法,能够仅通过少量比特翻转就显著降低LLM的性能,同时避免引入数值错误。

核心思路:SBFA的核心思路是找到对模型性能影响最大,但翻转后参数值仍在合理范围内的单个比特。通过定义ImpactScore指标,综合考虑梯度敏感度和扰动范围,从而评估每个比特的重要性。此外,采用SKIP搜索算法,降低搜索复杂度,提高攻击效率。

技术框架:SBFA的整体流程包括以下几个阶段:1) 参数敏感度评估:计算模型中每个参数的ImpactScore,该分数结合了梯度敏感度和参数扰动范围。2) 比特选择:使用SKIP搜索算法,根据ImpactScore选择最具影响力的单个比特。3) 比特翻转:翻转选定的比特。4) 性能评估:评估翻转比特后模型在特定任务上的性能下降程度。

关键创新:SBFA的关键创新在于:1) 单比特翻转:仅需翻转单个比特即可显著降低模型性能,攻击更加隐蔽。2) ImpactScore指标:综合考虑梯度敏感度和扰动范围,更准确地评估比特的重要性。3) SKIP搜索算法:降低搜索复杂度,提高攻击效率。与现有方法相比,SBFA更加高效、隐蔽,且适用性更广。

关键设计:ImpactScore的计算公式为:ImpactScore = GradientSensitivity * PerturbationRange。其中,GradientSensitivity表示参数对模型输出的梯度影响,PerturbationRange表示在保持参数值在合理范围内的最大扰动幅度。SKIP搜索算法通过跳过不重要的比特,减少搜索空间,从而降低计算复杂度。具体实现中,使用了层级权重分布来约束扰动范围,确保翻转后的参数值不会超出正常范围。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SBFA在Qwen、LLaMA和Gemma等SOTA LLM模型上进行了实验,结果表明,仅需翻转单个比特,即可将MMLU和SST-2任务的精度降低到随机水平以下。例如,在某些模型上,MMLU的精度从原始的70%以上降至10%以下。此外,SBFA的搜索时间仅需数十分钟,远低于现有方法,验证了其高效性。

🎯 应用场景

SBFA的研究成果可应用于评估和提升大语言模型的安全性。通过模拟单比特翻转攻击,可以发现模型中存在的安全漏洞,并采取相应的防御措施,例如引入冗余机制、参数校验或对抗训练,从而提高模型的鲁棒性和可靠性。此外,该研究还可以促进对AI模型安全性的更深入理解,推动开发更安全的AI系统。

📄 摘要(原文)

Model integrity of Large language models (LLMs) has become a pressing security concern with their massive online deployment. Prior Bit-Flip Attacks (BFAs) -- a class of popular AI weight memory fault-injection techniques -- can severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs and reveal that, despite the intuition of better robustness from modularity and redundancy, only a handful of adversarial bit flips can also cause LLMs' catastrophic accuracy degradation. However, existing BFA methods typically focus on either integer or floating-point models separately, limiting attack flexibility. Moreover, in floating-point models, random bit flips often cause perturbed parameters to extreme values (e.g., flipping in exponent bit), making it not stealthy and leading to numerical runtime error (e.g., invalid tensor values (NaN/Inf)). In this work, for the first time, we propose SBFA (Sneaky Bit-Flip Attack), which collapses LLM performance with only one single bit flip while keeping perturbed values within benign layer-wise weight distribution. It is achieved through iterative searching and ranking through our defined parameter sensitivity metric, ImpactScore, which combines gradient sensitivity and perturbation range constrained by the benign layer-wise weight distribution. A novel lightweight SKIP searching algorithm is also proposed to greatly reduce searching complexity, which leads to successful SBFA searching taking only tens of minutes for SOTA LLMs. Across Qwen, LLaMA, and Gemma models, with only one single bit flip, SBFA successfully degrades accuracy to below random levels on MMLU and SST-2 in both BF16 and INT8 data formats. Remarkably, flipping a single bit out of billions of parameters reveals a severe security concern of SOTA LLM models.