Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm

📄 arXiv: 2409.14119v3 📥 PDF

作者: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin

分类: cs.CL, cs.AI, cs.CR, cs.LG

发布日期: 2024-09-21 (更新: 2024-10-06)

备注: Under Review

🔗 代码/项目: GITHUB


💡 一句话要点

Obliviate:中和参数高效微调中与任务无关的后门攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门防御 参数高效微调 大型语言模型 神经元重要性 任务无关攻击

📋 核心要点

  1. 参数高效微调虽然高效,但容易受到与任务无关的后门攻击,现有防御方法在PEFT场景下效果不佳。
  2. Obliviate通过放大良性神经元并惩罚触发token的影响,有效防御PEFT中的后门攻击。
  3. 实验表明,Obliviate能显著降低任务无关后门攻击成功率,并对任务特定后门和自适应攻击具有鲁棒性。

📝 摘要(中文)

参数高效微调(PEFT)已成为大型语言模型的关键训练策略。然而,它对较少可训练参数的依赖带来了安全风险,例如与任务无关的后门。尽管它们对各种任务都有严重影响,但目前还没有有效的防御解决方案来应对PEFT环境下的任务无关后门。在本研究中,我们介绍Obliviate,一种可集成于PEFT的后门防御方法。我们开发了两种技术,旨在放大PEFT层中的良性神经元,并惩罚触发token的影响。在三个主要的PEFT架构上的评估表明,我们的方法可以显著降低最先进的任务无关后门攻击的成功率(降低83.6%)。此外,我们的方法对任务特定后门和自适应攻击都表现出强大的防御能力。源代码可在https://github.com/obliviateARR/Obliviate 获取。

🔬 方法详解

问题定义:论文旨在解决参数高效微调(PEFT)中存在的任务无关后门攻击问题。现有的防御方法通常针对全参数微调设计,无法有效应对PEFT场景下后门攻击的特殊性,例如攻击者可以更容易地控制少量可训练参数,从而植入更隐蔽的后门。

核心思路:Obliviate的核心思路是区分并增强模型中良性神经元的作用,同时削弱与后门触发器相关的神经元的影响。通过这种方式,即使模型受到后门攻击,也能在正常输入下保持良好的性能,而在包含触发器的输入下,后门行为会被抑制。

技术框架:Obliviate主要包含两个阶段:1) 良性神经元放大:通过识别并增强PEFT层中对正常任务贡献最大的神经元,提高模型对正常输入的鲁棒性。2) 触发token惩罚:通过识别并惩罚与后门触发token相关的神经元,降低模型对恶意输入的敏感性。这两个阶段可以协同工作,共同防御后门攻击。

关键创新:Obliviate的关键创新在于其针对PEFT场景的后门防御策略。它不是简单地移除或修改后门,而是通过调整神经元的重要性来中和后门的影响。这种方法更具隐蔽性和适应性,能够有效应对各种类型的后门攻击,包括自适应攻击。与现有方法相比,Obliviate不需要对整个模型进行重新训练,而是专注于PEFT层,从而保持了训练效率。

关键设计:Obliviate的关键设计包括:1) 神经元重要性评估:使用某种度量(具体方法未知)来评估每个神经元对正常任务的贡献程度。2) 放大/惩罚策略:根据神经元的重要性,使用特定的损失函数或正则化项来放大良性神经元并惩罚与触发token相关的神经元。3) PEFT集成:Obliviate被设计成可以无缝集成到各种PEFT架构中,例如LoRA、Adapter等。具体的参数设置和损失函数形式需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Obliviate在三个主流PEFT架构上进行了评估,实验结果表明,该方法能够显著降低最先进的任务无关后门攻击的成功率,降幅高达83.6%。此外,Obliviate还展现出对任务特定后门和自适应攻击的强大防御能力,证明了其鲁棒性和泛化性。这些结果表明Obliviate是一种有效的PEFT后门防御方法。

🎯 应用场景

Obliviate可应用于各种使用参数高效微调的大型语言模型部署场景,例如自然语言处理、文本生成、机器翻译等。该方法能够有效防御潜在的后门攻击,提高模型的安全性与可靠性,降低模型被恶意利用的风险。未来,该技术可进一步扩展到其他类型的模型和攻击场景,为人工智能系统的安全保驾护航。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) has become a key training strategy for large language models. However, its reliance on fewer trainable parameters poses security risks, such as task-agnostic backdoors. Despite their severe impact on a wide range of tasks, there is no practical defense solution available that effectively counters task-agnostic backdoors within the context of PEFT. In this study, we introduce Obliviate, a PEFT-integrable backdoor defense. We develop two techniques aimed at amplifying benign neurons within PEFT layers and penalizing the influence of trigger tokens. Our evaluations across three major PEFT architectures show that our method can significantly reduce the attack success rate of the state-of-the-art task-agnostic backdoors (83.6%$\downarrow$). Furthermore, our method exhibits robust defense capabilities against both task-specific backdoors and adaptive attacks. Source code will be obtained at https://github.com/obliviateARR/Obliviate.