Breaking PEFT Limitations: Leveraging Weak-to-Strong Knowledge Transfer for Backdoor Attacks in LLMs

📄 arXiv: 2409.17946v4 📥 PDF

作者: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Yanhao Jia, Luwei Xiao, Cong-Duy Nguyen, Luu Anh Tuan

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-09-26 (更新: 2025-07-09)


💡 一句话要点

提出FAKD:利用弱到强知识迁移增强LLM中基于PEFT的后门攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门攻击 大型语言模型 参数高效微调 知识蒸馏 特征对齐 弱到强学习 模型安全 对抗性攻击

📋 核心要点

  1. 现有全参数微调的后门攻击计算成本高昂,而参数高效微调(PEFT)的后门攻击效果不佳,难以对齐触发器与目标标签。
  2. 论文提出FAKD算法,通过全参数微调的小模型作为教师,利用特征对齐增强的知识蒸馏,将后门知识迁移到使用PEFT的大模型。
  3. 实验结果表明,FAKD在多种模型和攻击设置下,能有效提升基于PEFT的后门攻击成功率,接近100%。

📝 摘要(中文)

大型语言模型(LLMs)因其卓越的能力而被广泛应用,但已被证明容易受到后门攻击。这些攻击通过毒化训练样本和全参数微调(FPFT)将目标漏洞引入LLMs。然而,这种后门攻击受到限制,因为它们需要大量的计算资源,尤其是在LLMs规模增大时。此外,参数高效微调(PEFT)提供了一种替代方案,但受限的参数更新可能会阻碍触发器与目标标签的对齐。本研究首先验证了使用PEFT的后门攻击在实现可行性能方面可能遇到挑战。为了解决这些问题并提高使用PEFT的后门攻击的有效性,我们提出了一种基于特征对齐增强知识蒸馏(FAKD)的弱到强后门攻击算法。具体来说,我们通过FPFT毒化小规模语言模型,使其充当教师模型。然后,教师模型通过FAKD隐蔽地将后门转移到大规模学生模型,FAKD采用PEFT。理论分析表明,FAKD有可能增强后门攻击的有效性。我们通过在四种语言模型、四种后门攻击算法和两种不同架构的教师模型上的分类任务证明了FAKD的卓越性能。实验结果表明,针对PEFT的后门攻击的成功率接近100%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中,使用参数高效微调(PEFT)进行后门攻击时,攻击效果不佳的问题。现有全参数微调(FPFT)的后门攻击虽然有效,但计算资源消耗巨大,难以应用于超大模型。而直接使用PEFT进行后门攻击,由于参数更新受限,难以使触发器与目标标签有效对齐,导致攻击成功率低。

核心思路:论文的核心思路是利用“弱到强”的知识迁移,即先通过全参数微调(FPFT)在一个小规模模型上植入后门,然后将这个小模型作为教师模型,通过知识蒸馏的方式将后门知识迁移到使用PEFT的大规模学生模型上。这样既避免了直接在大模型上进行昂贵的FPFT,又解决了PEFT参数更新受限的问题。

技术框架:FAKD算法的技术框架主要包含两个阶段:1) 教师模型训练阶段:使用FPFT在小规模语言模型上进行后门攻击训练,得到一个带有后门的教师模型。2) 学生模型训练阶段:使用FAKD算法,基于PEFT对大规模语言模型(学生模型)进行训练,从教师模型中学习后门知识。FAKD的核心是特征对齐增强的知识蒸馏,通过对齐教师模型和学生模型的特征表示,提高知识迁移的效率。

关键创新:论文的关键创新在于提出了特征对齐增强的知识蒸馏(FAKD)方法,用于提升PEFT后门攻击的有效性。FAKD不仅利用传统的知识蒸馏损失,还引入了特征对齐损失,促使学生模型学习教师模型中与后门相关的特征表示。这种特征对齐能够更有效地将后门知识从教师模型迁移到学生模型,从而提高攻击成功率。

关键设计:FAKD的关键设计包括:1) 特征提取层选择:选择教师模型和学生模型中合适的特征提取层进行特征对齐,通常选择Transformer的中间层。2) 特征对齐损失函数:使用合适的损失函数(如MSE损失)来衡量教师模型和学生模型特征表示之间的差异,并将其作为训练目标的一部分。3) 知识蒸馏损失函数:使用传统的知识蒸馏损失函数(如KL散度)来促使学生模型学习教师模型的输出分布。4) 损失权重:合理设置特征对齐损失和知识蒸馏损失的权重,平衡两种损失对训练的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAKD算法在四种语言模型、四种后门攻击算法和两种不同架构的教师模型上均表现出卓越的性能。针对PEFT的后门攻击成功率接近100%,显著优于直接使用PEFT进行后门攻击的方法。这验证了FAKD算法在提升PEFT后门攻击有效性方面的优势。

🎯 应用场景

该研究成果可应用于评估和增强大型语言模型的安全性,尤其是在参数高效微调场景下。通过FAKD方法,可以更有效地评估LLM在PEFT设置下的后门攻击防御能力,并为开发更鲁棒的防御机制提供指导。此外,该方法也为研究其他类型的模型安全问题提供了新的思路。

📄 摘要(原文)

Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning (FPFT). However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from the weak-to-strong based on Feature Alignment-enhanced Knowledge Distillation (FAKD). Specifically, we poison small-scale language models through FPFT to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through FAKD, which employs PEFT. Theoretical analysis reveals that FAKD has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of FAKD on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT.