Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

📄 arXiv: 2501.17433v1 📥 PDF

作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

分类: cs.CR, cs.AI, cs.CL, cs.LG

发布日期: 2025-01-29

🔗 代码/项目: GITHUB


💡 一句话要点

Virus:一种绕过安全防护的大语言模型有害微调攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 有害微调攻击 安全防护机制 红队攻击 对抗样本

📋 核心要点

  1. 大型语言模型在有害数据上微调后会丧失安全性,现有防护依赖于过滤有害数据,但效果有限。
  2. Virus攻击通过轻微修改有害数据绕过安全防护,从而实现对LLM的有害微调攻击。
  3. 实验表明,Virus攻击能以高达100%的泄漏率绕过安全防护,并有效降低LLM的安全性。

📝 摘要(中文)

最近的研究表明,大型语言模型(LLMs)容易受到有害微调攻击的影响——模型在少量有害样本上进行微调后会失去其安全对齐能力。为了降低风险,通常使用安全防护机制来过滤掉有害样本,然后再进行微调。在本文中,我们通过设计一种新的红队方法表明,仅仅依靠安全防护机制进行数据过滤是不可靠的。我们提出的攻击方法,名为Virus,通过稍微修改有害数据,可以轻松绕过安全防护机制。实验结果表明,Virus优化的有害数据无法被安全防护机制检测到,泄漏率高达100%,并且可以同时实现卓越的攻击性能。最后,我们希望通过本文传达的关键信息是:将安全防护机制视为应对有害微调攻击的救命稻草是轻率的,因为它无法解决预训练LLM固有的安全问题。我们的代码可在https://github.com/git-disl/Virus上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在面对有害微调攻击时,现有安全防护机制(guardrail moderation)的不足。现有方法依赖于在微调前过滤有害数据,但这种方法容易被绕过,导致模型在微调后产生有害输出。现有方法的痛点在于无法有效识别和过滤经过精心设计的有害数据。

核心思路:论文的核心思路是通过设计一种新的红队攻击方法(Virus)来绕过安全防护机制。Virus通过对有害数据进行微小的修改,使其能够逃避安全防护的检测,同时保持其攻击性,从而实现对LLM的有害微调攻击。这样设计的目的是为了证明仅仅依靠安全防护机制进行数据过滤是不可靠的。

技术框架:Virus攻击的整体流程如下:首先,准备初始的有害数据。然后,使用Virus算法对这些数据进行优化,使其能够绕过安全防护机制。接下来,使用优化后的有害数据对目标LLM进行微调。最后,评估微调后的LLM的安全性,验证Virus攻击的有效性。该框架主要包含有害数据优化和模型微调两个阶段。

关键创新:论文最重要的技术创新点在于提出了一种新的红队攻击方法Virus,该方法能够有效地绕过安全防护机制,实现对LLM的有害微调攻击。与现有方法相比,Virus不需要对模型本身进行修改,而是通过优化输入数据来实现攻击,这使得攻击更加隐蔽和难以防御。此外,Virus的设计目标是最大化攻击成功率,同时最小化对原始数据的修改,从而保证攻击的有效性和隐蔽性。

关键设计:Virus攻击的关键设计包括:(1) 目标函数的设计,该函数旨在最大化攻击成功率,同时最小化对原始数据的修改。(2) 优化算法的选择,论文可能采用了梯度下降或其他优化算法来寻找能够绕过安全防护机制的最优数据。(3) 对抗样本生成策略,如何生成能够欺骗安全防护机制的对抗样本,例如通过添加细微的扰动或改变文本的语义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Virus攻击能够以高达100%的泄漏率绕过安全防护机制,这意味着所有经过Virus优化的有害数据都能够成功绕过安全防护并用于微调LLM。同时,使用Virus优化的数据进行微调后,LLM的攻击性能也得到了显著提升,表明Virus攻击能够有效地降低LLM的安全性。这些结果突显了现有安全防护机制的局限性。

🎯 应用场景

该研究揭示了现有安全防护机制在面对恶意攻击时的脆弱性,强调了开发更强大的安全防护措施的重要性。研究成果可应用于评估和改进LLM的安全性,并为开发更有效的对抗训练方法提供指导。此外,该研究也提醒开发者不能过度依赖安全防护机制,而应从根本上解决LLM的安全问题。

📄 摘要(原文)

Recent research shows that Large Language Models (LLMs) are vulnerable to harmful fine-tuning attacks -- models lose their safety alignment ability after fine-tuning on a few harmful samples. For risk mitigation, a guardrail is typically used to filter out harmful samples before fine-tuning. By designing a new red-teaming method, we in this paper show that purely relying on the moderation guardrail for data filtration is not reliable. Our proposed attack method, dubbed Virus, easily bypasses the guardrail moderation by slightly modifying the harmful data. Experimental results show that the harmful data optimized by Virus is not detectable by the guardrail with up to 100\% leakage ratio, and can simultaneously achieve superior attack performance. Finally, the key message we want to convey through this paper is that: \textbf{it is reckless to consider guardrail moderation as a clutch at straws towards harmful fine-tuning attack}, as it cannot solve the inherent safety issue of the pre-trained LLMs. Our code is available at https://github.com/git-disl/Virus