Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation

📄 arXiv: 2409.01586v4 📥 PDF

作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

分类: cs.CL, cs.AI

发布日期: 2024-09-03 (更新: 2025-03-17)

🔗 代码/项目: GITHUB


💡 一句话要点

Booster:通过衰减有害扰动应对大语言模型中的有害微调攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 有害微调攻击 对齐训练 鲁棒性 损失正则化

📋 核心要点

  1. 现有防御有害微调攻击的方法性能不佳,未能充分解决大语言模型对齐破坏的根本原因。
  2. Booster通过在对齐阶段引入损失正则化项,衰减有害扰动对模型权重的影响,从而减轻微调风险。
  3. 实验表明,Booster能有效降低微调模型的有害分数,同时保持下游任务的性能。

📝 摘要(中文)

有害微调攻击对大语言模型“微调即服务”模式构成了严重的安全隐患。尽管现有防御方法已被提出以缓解此问题,但它们的性能远未令人满意,并且问题的根本原因尚未完全解决。为此,本文表明模型权重上的有害扰动可能是对齐破坏的一个可能原因。为了减轻有害扰动的负面影响,我们提出了一种对齐阶段的解决方案,称为Booster。从技术上讲,除了原始的对齐损失之外,我们在对齐阶段的优化中附加了一个损失正则化项。该正则化项确保模型在模拟有害扰动后,有害损失的减少得到衰减,从而减轻了后续微调的风险。实验结果表明,Booster可以有效地降低微调模型的有害分数,同时保持下游任务的性能。我们的代码可在https://github.com/git-disl/Booster 获取。

🔬 方法详解

问题定义:论文旨在解决大语言模型在“微调即服务”场景下,受到恶意微调攻击导致模型对齐被破坏的问题。现有防御方法效果不佳,未能从根本上解决有害扰动带来的风险。

核心思路:论文的核心思路是认为模型权重上的有害扰动是导致对齐破坏的关键因素。因此,通过在模型的对齐阶段,主动衰减这些有害扰动的影响,可以有效降低后续微调过程中模型受到攻击的风险。

技术框架:Booster方法主要在模型的对齐阶段进行干预。在标准的对齐训练中,除了使用原始的对齐损失函数外,Booster还引入了一个额外的损失正则化项。这个正则化项的目标是减小模型在受到模拟的有害扰动后,有害损失的减少幅度。通过这种方式,模型在对齐阶段就能够学习到对有害扰动更强的鲁棒性。

关键创新:Booster的关键创新在于其在对齐阶段主动防御有害微调攻击的策略。与以往侧重于检测或缓解微调后模型风险的方法不同,Booster从源头上减少了模型受到有害扰动影响的可能性。这种前置防御的思想是该方法的核心创新点。

关键设计:Booster的关键设计在于损失正则化项的构建。具体来说,该正则化项衡量了模型在受到模拟的有害扰动前后,有害损失的变化。通过最小化这个变化量,Booster促使模型学习对有害扰动不敏感的权重。有害扰动的模拟方式和正则化项的权重是需要仔细调整的关键参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Booster能够有效降低微调模型的有害分数,同时保持下游任务的性能。具体性能数据未知,但摘要强调了在降低有害分数的同时,没有牺牲模型在其他任务上的表现,这是一个重要的优势。

🎯 应用场景

Booster方法可应用于各种大语言模型微调服务平台,提高模型安全性,防止恶意用户通过微调破坏模型对齐。该研究有助于构建更安全可靠的AI服务生态,降低大语言模型被滥用的风险,具有重要的社会价值。

📄 摘要(原文)

Harmful fine-tuning attack poses serious safety concerns for large language models' fine-tuning-as-a-service. While existing defenses have been proposed to mitigate the issue, their performances are still far away from satisfactory, and the root cause of the problem has not been fully recovered. To this end, we in this paper show that harmful perturbation over the model weights could be a probable cause of alignment-broken. In order to attenuate the negative impact of harmful perturbation, we propose an alignment-stage solution, dubbed Booster. Technically, along with the original alignment loss, we append a loss regularizer in the alignment stage's optimization. The regularizer ensures that the model's harmful loss reduction after the simulated harmful perturbation is attenuated, thereby mitigating the subsequent fine-tuning risk. Empirical results show that Booster can effectively reduce the harmful score of the fine-tuned models while maintaining the performance of downstream tasks. Our code is available at https://github.com/git-disl/Booster.