Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation

📄 arXiv: 2410.09760v3 📥 PDF

作者: Guozhi Liu, Weiwei Lin, Tiansheng Huang, Ruichao Mo, Qi Mu, Li Shen

分类: cs.LG

发布日期: 2024-10-13 (更新: 2025-01-31)

🔗 代码/项目: GITHUB


💡 一句话要点

提出T-Vaccine,通过层级扰动实现大语言模型针对恶意微调的安全对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 恶意微调 层级扰动 梯度范数 在线微调 资源效率

📋 核心要点

  1. 现有Vaccine方法对所有层施加均匀扰动,忽略了不同层对安全性的不同贡献,导致资源浪费和性能下降。
  2. T-Vaccine通过梯度范数识别安全关键层,仅对这些层施加扰动,从而提高资源利用率和防御效果。
  3. 实验表明,T-Vaccine在防御效果和资源效率上优于Vaccine、RepNoise和TAR,并能在消费级GPU上训练7B模型。

📝 摘要(中文)

有害微调攻击对在线微调服务构成严重威胁。Vaccine是一种最新的对齐阶段防御方法,它对嵌入的所有层应用均匀扰动,使模型对模拟的嵌入漂移具有鲁棒性。然而,应用层级均匀扰动可能导致对某些特定的安全非相关层过度扰动,从而导致防御性能下降和不必要的内存消耗。为了解决这个限制,我们提出了一种内存高效的安全对齐方法T-Vaccine,它只对模型的选定层应用扰动。T-Vaccine遵循两个核心步骤:首先,它使用梯度范数作为统计指标来识别安全关键层。其次,T-Vaccine只对安全关键层应用扰动,同时在训练期间保持其他层冻结,而不是在所有层上应用均匀扰动。结果表明,T-Vaccine在防御有效性和资源效率方面都优于Vaccine。与其他防御基线(如RepNoise和TAR)的比较也证明了T-Vaccine的优越性。值得注意的是,T-Vaccine是第一个可以解决在具有有限内存的消费级GPU(如RTX 4090)上训练的7B预训练模型的有害微调问题的防御方法。我们的代码可在https://github.com/Lslland/T-Vaccine上找到。

🔬 方法详解

问题定义:论文旨在解决大语言模型在在线微调服务中面临的恶意微调攻击问题。现有的Vaccine方法虽然能提高模型对恶意微调的鲁棒性,但其对所有层施加均匀扰动的方式存在缺陷,即对安全非关键层也施加了不必要的扰动,导致资源浪费、计算效率降低以及防御性能的潜在下降。

核心思路:T-Vaccine的核心思路是识别并区分模型中对安全性至关重要的层(安全关键层)和非关键层,然后仅对安全关键层施加扰动。这种选择性扰动策略旨在提高资源利用率,减少不必要的计算开销,并优化防御效果。通过专注于关键层,T-Vaccine能够更有效地抵御恶意微调攻击。

技术框架:T-Vaccine的整体框架包含两个主要阶段:1) 安全关键层识别:使用梯度范数作为统计指标来评估每一层对安全性的贡献,从而识别出安全关键层。梯度范数越大,表明该层对安全性的影响越大。2) 选择性扰动训练:在训练过程中,仅对识别出的安全关键层施加扰动,而保持其他层参数冻结。这样可以集中资源,提高训练效率。

关键创新:T-Vaccine的关键创新在于其选择性扰动策略。与现有方法(如Vaccine)对所有层施加均匀扰动不同,T-Vaccine能够根据每一层对安全性的贡献程度,有选择性地施加扰动。这种方法更具针对性,能够更有效地利用计算资源,并提高防御效果。

关键设计:T-Vaccine的关键设计包括:1) 梯度范数作为安全关键层识别指标:使用梯度范数来量化每一层对安全性的影响。2) 安全关键层扰动幅度:扰动幅度是一个需要调整的超参数,需要根据具体任务和模型进行调整。3) 非安全关键层冻结:在训练过程中,保持非安全关键层的参数不变,以减少计算开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,T-Vaccine在防御效果和资源效率方面均优于Vaccine、RepNoise和TAR等基线方法。例如,在针对恶意微调攻击的防御任务中,T-Vaccine能够显著提高模型的鲁棒性,同时降低内存消耗。值得注意的是,T-Vaccine是第一个能够在消费级GPU(如RTX 4090)上训练7B预训练模型并有效防御恶意微调攻击的方法。

🎯 应用场景

T-Vaccine可应用于各种在线微调服务,特别是那些对安全性要求较高的场景,如金融、医疗等。该方法能够有效防御恶意微调攻击,保护用户数据和模型安全,提高在线服务的可靠性和安全性。未来,该方法可以扩展到其他类型的模型和攻击,并与其他防御技术相结合,构建更强大的安全防御体系。

📄 摘要(原文)

Harmful fine-tuning attack poses a serious threat to the online fine-tuning service. Vaccine, a recent alignment-stage defense, applies uniform perturbation to all layers of embedding to make the model robust to the simulated embedding drift. However, applying layer-wise uniform perturbation may lead to excess perturbations for some particular safety-irrelevant layers, resulting in defense performance degradation and unnecessary memory consumption. To address this limitation, we propose Targeted Vaccine (T-Vaccine), a memory-efficient safety alignment method that applies perturbation to only selected layers of the model. T-Vaccine follows two core steps: First, it uses gradient norm as a statistical metric to identify the safety-critical layers. Second, instead of applying uniform perturbation across all layers, T-Vaccine only applies perturbation to the safety-critical layers while keeping other layers frozen during training. Results show that T-Vaccine outperforms Vaccine in terms of both defense effectiveness and resource efficiency. Comparison with other defense baselines, e.g., RepNoise and TAR also demonstrate the superiority of T-Vaccine. Notably, T-Vaccine is the first defense that can address harmful fine-tuning issues for a 7B pre-trained models trained on consumer GPUs with limited memory (e.g., RTX 4090). Our code is available at https://github.com/Lslland/T-Vaccine.