Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation

📄 arXiv: 2410.14425v2 📥 PDF

作者: Shuai Zhao, Xiaobao Wu, Cong-Duy Nguyen, Yanhao Jia, Meihuizi Jia, Yichao Feng, Luu Anh Tuan

分类: cs.CL, cs.AI, cs.CR

发布日期: 2024-10-18 (更新: 2025-05-20)


💡 一句话要点

提出W2SDefense,利用弱到强知识蒸馏消除LLM中的后门攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门攻击防御 知识蒸馏 参数高效微调 大型语言模型 弱到强学习

📋 核心要点

  1. 现有参数高效微调(PEFT)的大语言模型易受后门攻击,中毒模型在特定触发下仍会激活后门,影响模型安全性。
  2. 论文提出W2SDefense,利用小规模干净教师模型通过知识蒸馏指导大规模中毒学生模型进行后门非学习,实现特征对齐。
  3. 实验表明,W2SDefense在防御后门攻击方面表现出色,且不会显著降低模型在正常任务上的性能。

📝 摘要(中文)

参数高效微调(PEFT)弥合了大型语言模型(LLM)与下游任务之间的差距。然而,PEFT已被证明容易受到恶意攻击。研究表明,即使经过PEFT,被投毒的LLM在输入样本包含预定义触发器时,仍保留激活内部后门的能力。本文提出了一种新颖的弱到强(weak-to-strong)非学习算法,即W2SDefense,基于特征对齐知识蒸馏来防御后门攻击。具体而言,我们首先通过全参数微调训练一个小规模语言模型,作为干净的教师模型。然后,该教师模型利用PEFT指导大规模中毒的学生模型非学习后门。理论分析表明,W2SDefense有潜力增强学生模型非学习后门特征的能力,从而防止后门的激活。我们在三个最先进的大型语言模型和几种不同的后门攻击算法上进行了全面的实验。实验结果表明,W2SDefense在防御后门攻击方面表现出色,且不影响模型性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在经过参数高效微调(PEFT)后,仍然容易受到后门攻击的问题。现有的PEFT方法虽然能够高效地将LLMs适应于下游任务,但同时也引入了安全风险,即攻击者可以通过投毒数据在模型中植入后门,这些后门会在特定触发条件下被激活,导致模型输出错误的结果。现有的防御方法可能无法有效消除这些后门,或者会显著降低模型的性能。

核心思路:论文的核心思路是利用知识蒸馏,通过一个干净的、小规模的教师模型来指导一个被投毒的、大规模的学生模型进行后门非学习。这种“弱到强”的蒸馏方式旨在让学生模型学习到教师模型中干净的特征表示,从而消除或弱化后门特征。这样设计的目的是在不影响模型正常性能的前提下,有效地防御后门攻击。

技术框架:W2SDefense的整体框架包含以下几个主要阶段:1) 教师模型训练:使用干净的数据集,通过全参数微调训练一个小规模的语言模型作为教师模型。2) 学生模型训练:学生模型是已经被后门攻击投毒的大型语言模型,使用PEFT进行微调。3) 知识蒸馏:使用教师模型指导学生模型进行后门非学习,通过最小化教师模型和学生模型之间的特征差异来实现特征对齐。4) 模型评估:评估模型在干净数据和后门数据上的性能,以验证防御效果。

关键创新:W2SDefense的关键创新在于其“弱到强”的知识蒸馏策略。与传统的知识蒸馏方法不同,W2SDefense使用一个小规模的、干净的教师模型来指导一个大规模的、被投毒的学生模型。这种策略的优势在于,教师模型不容易受到后门攻击的影响,可以提供更可靠的知识指导,从而更有效地消除学生模型中的后门特征。此外,结合PEFT技术,可以在不显著增加计算成本的情况下,实现对大型语言模型的后门防御。

关键设计:在W2SDefense中,关键的设计包括:1) 教师模型的选择:选择一个规模较小但性能良好的语言模型作为教师模型,以平衡计算成本和知识传递效果。2) 特征对齐损失函数:设计合适的损失函数来衡量教师模型和学生模型之间的特征差异,例如可以使用均方误差(MSE)或余弦相似度等。3) PEFT方法的选择:选择合适的PEFT方法(如LoRA、Adapter等)来微调学生模型,以在有限的计算资源下实现高效的后门非学习。4) 蒸馏温度参数:调整蒸馏温度参数,以控制知识传递的强度和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,W2SDefense在防御后门攻击方面表现出色,在三个最先进的大型语言模型上进行了实验,并与几种不同的后门攻击算法进行了对比。实验结果显示,W2SDefense能够在有效防御后门攻击的同时,保持模型在干净数据上的性能,性能下降可忽略不计。

🎯 应用场景

W2SDefense可应用于各种需要使用大型语言模型的场景,尤其是在安全性要求较高的领域,如金融、医疗、法律等。该方法可以有效防御针对LLM的后门攻击,保障模型的可靠性和安全性,降低因模型被恶意利用而造成的风险。未来,该研究可以扩展到防御更复杂的攻击类型,并与其他安全技术相结合,构建更全面的LLM安全防护体系。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) can bridge the gap between large language models (LLMs) and downstream tasks. However, PEFT has been proven vulnerable to malicious attacks. Research indicates that poisoned LLMs, even after PEFT, retain the capability to activate internalized backdoors when input samples contain predefined triggers. In this paper, we introduce a novel weak-to-strong unlearning algorithm to defend against backdoor attacks based on feature alignment knowledge distillation, named W2SDefense. Specifically, we first train a small-scale language model through full-parameter fine-tuning to serve as the clean teacher model. Then, this teacher model guides the large-scale poisoned student model in unlearning the backdoor, leveraging PEFT. Theoretical analysis suggests that W2SDefense has the potential to enhance the student model's ability to unlearn backdoor features, preventing the activation of the backdoor. We conduct comprehensive experiments on three state-of-the-art large language models and several different backdoor attack algorithms. Our empirical results demonstrate the outstanding performance of W2SDefense in defending against backdoor attacks without compromising model performance.