Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning

📄 arXiv: 2512.10150v1 📥 PDF

作者: Lama Alssum, Hani Itani, Hasan Abed Al Kader Hammoud, Philip Torr, Adel Bibi, Bernard Ghanem

分类: cs.CL, cs.AI

发布日期: 2025-12-10


💡 一句话要点

提出基于持续学习的安全对齐方法,缓解LLM微调过程中的安全性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 持续学习 安全对齐 灾难性遗忘 微调 安全性 模型安全 LLM安全

📋 核心要点

  1. 现有LLM微调方法在提升任务性能的同时,容易导致模型遗忘原有的安全对齐,产生安全风险。
  2. 论文将安全对齐的保持视为一个持续学习问题,通过持续学习方法缓解微调过程中的灾难性遗忘。
  3. 实验表明,持续学习方法能有效降低攻击成功率,DER方法在多个任务和模型上表现最佳,同时保持任务效用。

📝 摘要(中文)

大型语言模型(LLM)的安全对齐随着其普及变得越来越重要。本文研究了LLM在适应新任务时出现的安全性退化问题。我们将这种安全性妥协归因于灾难性遗忘,并将微调过程中保持安全性定义为一个持续学习(CL)问题。我们考虑了微调即服务(fine-tuning-as-a-service)的设置,用户将他们的数据上传到服务提供商,以获得一个在用户选择的任务上表现出色的定制模型。我们采用了文献中的几种CL方法,并系统地评估了它们减轻安全性退化的能力,包括基于正则化、基于记忆和模型合并的方法。我们考虑了两种场景:(1)良性用户数据和(2)恶意用户数据。结果表明,CL方法始终比标准微调实现更低的攻击成功率。其中,DER在保持任务效用的同时,优于其他CL方法和现有的安全保持基线。这些发现推广到三个下游任务(GSM8K、SST2、Code)和三个模型系列(LLaMA2-7B、Mistral-7B、Gemma-2B),证明了CL是保持安全性的实用解决方案。

🔬 方法详解

问题定义:论文旨在解决LLM在微调过程中出现的安全性退化问题,即灾难性遗忘导致模型更容易受到攻击。现有微调方法在追求特定任务性能时,往往忽略了对原有安全对齐的保持,使得模型在面对恶意输入时表现出不安全的行为。

核心思路:论文的核心思路是将安全对齐的保持问题转化为一个持续学习(CL)问题。通过在微调过程中引入CL技术,可以有效地缓解灾难性遗忘,从而在提升新任务性能的同时,尽可能地保留模型原有的安全对齐。

技术框架:论文采用微调即服务(fine-tuning-as-a-service)的设置,用户上传数据到服务提供商以获得定制模型。在此基础上,研究者们评估了多种CL方法在缓解安全性退化方面的能力。这些方法包括:基于正则化的方法(如EWC),基于记忆的方法(如iCaRL),以及模型合并方法(如合并权重)。研究者们在良性和恶意用户数据两种场景下进行了实验。

关键创新:论文的关键创新在于将持续学习的视角引入到LLM的安全对齐领域,并系统地评估了多种CL方法在保持安全性方面的有效性。此外,论文还考虑了恶意用户数据的情况,更贴近实际应用场景。

关键设计:论文评估了多种CL方法,包括EWC(Elastic Weight Consolidation)、iCaRL(Incremental Classifier and Representation Learning)和模型合并等。其中,DER(Dark Experience Replay)方法表现突出。DER通过重放先前任务的“黑暗经验”(即模型预测错误的样本)来缓解灾难性遗忘。具体的参数设置和损失函数根据不同的CL方法而有所不同,但核心目标都是在微调过程中平衡新任务性能和原有安全对齐。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,持续学习方法能够显著降低LLM微调后的攻击成功率。其中,DER方法在三个下游任务(GSM8K、SST2、Code)和三个模型系列(LLaMA2-7B、Mistral-7B、Gemma-2B)上均表现出最佳性能,优于其他CL方法和现有安全保持基线,同时保持了任务效用。例如,DER方法在某些场景下可以将攻击成功率降低超过50%。

🎯 应用场景

该研究成果可应用于各种LLM微调场景,尤其是在需要高度安全性的应用中,例如金融、医疗等领域。通过采用持续学习方法,可以有效防止模型在适应新任务时丧失原有的安全特性,降低被恶意利用的风险。该研究为构建更安全、可靠的LLM应用提供了技术支撑。

📄 摘要(原文)

The safety alignment of large language models (LLMs) is becoming increasingly important with their democratization. In this paper, we study the safety degradation that comes with adapting LLMs to new tasks. We attribute this safety compromise to catastrophic forgetting and frame the problem of preserving safety when fine-tuning as a continual learning (CL) problem. We consider the fine-tuning-as-a-service setup where the user uploads their data to a service provider to get a customized model that excels on the user's selected task. We adapt several CL approaches from the literature and systematically evaluate their ability to mitigate safety degradation. These include regularization-based, memory-based, and model merging approaches. We consider two scenarios, (1) benign user data and (2) poisoned user data. Our results demonstrate that CL approaches consistently achieve lower attack success rates than standard fine-tuning. Among these, DER outperforms both other CL methods and existing safety-preserving baselines while maintaining task utility. These findings generalize across three downstream tasks (GSM8K, SST2, Code) and three model families (LLaMA2-7B, Mistral-7B, Gemma-2B), establishing CL as a practical solution to preserve safety.