Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack

📄 arXiv: 2405.18641v5 📥 PDF

作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu

分类: cs.LG

发布日期: 2024-05-28 (更新: 2024-10-29)

备注: Accepted by NeurIPS2024. arXiv admin note: substantial text overlap with arXiv:2402.01109

🔗 代码/项目: GITHUB


💡 一句话要点

Lisa:针对有害微调攻击,为大语言模型提出惰性安全对齐方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 微调攻击 近端优化 有害数据

📋 核心要点

  1. 现有安全对齐的LLM易受有害数据微调攻击,导致模型产生有害回复,安全性降低。
  2. Lisa通过引入近端项约束微调过程中模型状态的漂移,从而稳定对齐过程,提升模型安全性。
  3. 实验表明,Lisa在保持用户任务准确性的同时,显著提高了LLM的对齐性能,有效防御有害微调攻击。

📝 摘要(中文)

最近的研究表明,具有安全对齐的大语言模型(LLM)可以通过在混合有害数据的数据集上进行微调来破解。本文首次在文献中展示了,通过在微调阶段分离状态以优化对齐和用户数据集,可以减轻这种破解效果。然而,后续研究表明,当投入到对齐状态的步骤太少时,这种简单的双状态优化(BSO)解决方案会遇到收敛不稳定性,导致对齐性能下降。通过统计分析,我们表明趋向一致的“过度漂移”可能是造成不稳定的原因。为了解决这个问题,我们提出了惰性安全对齐(Lisa),它引入了一个近端项来约束每个状态的漂移。理论上,近端项的好处得到了收敛分析的支持,我们表明,充分大的近端因子是保证Lisa收敛的必要条件。经验上,我们在四个下游微调任务上的结果表明,具有近端项的Lisa可以显著提高对齐性能,同时保持LLM在用户任务上的准确性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对有害数据微调攻击时,安全对齐机制失效的问题。现有方法,如双状态优化(BSO),在对齐状态优化不足时,容易出现收敛不稳定,导致安全性能下降。这种不稳定性源于模型参数在不同状态间“过度漂移”,最终损害模型的安全对齐。

核心思路:Lisa的核心思路是通过引入一个近端项(proximal term)来约束模型在微调过程中参数的漂移。这个近端项本质上是一个正则化项,它鼓励模型参数在更新时不要偏离其原始状态太远,从而稳定训练过程,防止过度拟合有害数据,并维持模型的安全对齐。

技术框架:Lisa的技术框架主要是在现有的微调流程中增加了一个近端正则化项。具体来说,在每次参数更新时,损失函数不仅考虑了用户任务的损失和对齐任务的损失,还考虑了当前参数与上一次迭代参数之间的距离。这个距离通过近端项进行惩罚,从而限制了参数的漂移。

关键创新:Lisa的关键创新在于引入了近端项来稳定安全对齐的微调过程。与传统的微调方法相比,Lisa能够更好地平衡用户任务的性能和模型的安全性,防止模型在微调过程中被有害数据“污染”。这种方法特别适用于对抗那些旨在破坏模型安全性的对抗性微调攻击。

关键设计:Lisa的关键设计在于近端项的系数(proximal factor)的选择。该系数控制了对参数漂移的惩罚力度。论文的理论分析表明,需要选择足够大的近端因子才能保证Lisa的收敛性。此外,损失函数的设计也至关重要,需要合理平衡用户任务损失、对齐任务损失和近端项损失,以达到最佳的性能和安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Lisa在四个下游微调任务上显著提高了LLM的对齐性能,同时保持了LLM在用户任务上的准确性。具体来说,Lisa能够有效抵抗有害微调攻击,使得模型在面对恶意数据时仍能生成安全、无害的回复。与没有近端项的基线方法相比,Lisa在安全性方面取得了显著的提升。

🎯 应用场景

Lisa可应用于各种需要安全对齐的大语言模型,尤其是在模型需要进行持续微调以适应新任务或新数据的情况下。它可以有效防止模型在微调过程中受到恶意数据的攻击,确保模型始终保持较高的安全性和可靠性。该方法对于金融、医疗等对安全性要求极高的领域具有重要意义。

📄 摘要(原文)

Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}.