SafeAnchor: Preventing Cumulative Safety Erosion in Continual Domain Adaptation of Large Language Models

📄 arXiv: 2604.17691v1 📥 PDF

作者: Dongxin Guo, Jikun Wu, Siu Ming Yiu

分类: cs.LG, cs.AI

发布日期: 2026-04-20

备注: 16 pages (12 main + 4 appendix), 2 figures, 12 tables


💡 一句话要点

SafeAnchor:防止大语言模型持续领域自适应中的累积安全侵蚀

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 持续学习 领域自适应 Fisher信息 梯度约束 安全子空间 LoRA微调

📋 核心要点

  1. 现有大语言模型安全对齐脆弱,易受对抗样本攻击,且缺乏对多领域连续自适应场景的考虑。
  2. SafeAnchor通过识别安全子空间并约束梯度更新,同时监控安全漂移,从而在连续自适应中保持安全。
  3. 实验表明,SafeAnchor在保持领域任务性能的同时,显著提升了模型在连续自适应过程中的安全性。

📝 摘要(中文)

大语言模型中的安全对齐非常脆弱,主要集中在最初的几个输出token中,并且可以通过在少量对抗样本(如100个)上进行微调来逆转。这种脆弱性在实际部署中变得至关重要,因为模型需要跨医学、法律和代码等领域进行连续自适应,导致安全防护措施逐渐失效。然而,现有的安全保护方法只针对单任务微调,完全没有解决多领域连续自适应的问题。我们提出了SafeAnchor框架,在整个连续自适应过程中保持安全。SafeAnchor首先通过Fisher信息特征分解识别LoRA参数空间中的低秩安全子空间,然后将特定于领域的梯度更新约束到这些子空间的正交补空间,最后通过阈值触发的纠正性重放来监控残余安全漂移。在Llama-2-7B-Chat和Mistral-7B-Instruct上,跨越三个领域和八个基准的评估表明,SafeAnchor保留了93.2%的原始安全对齐,比所有基线高出18-42个百分点,同时在领域任务上与无约束微调的性能差距在1.5个百分点以内。

🔬 方法详解

问题定义:论文旨在解决大语言模型在连续领域自适应过程中出现的安全侵蚀问题。现有方法主要关注单任务微调的安全,忽略了模型在多个领域顺序学习时,安全防护措施会逐渐失效的现象。这种累积的安全侵蚀使得模型在部署过程中面临潜在的安全风险。

核心思路:SafeAnchor的核心思路是在模型进行领域自适应时,通过锚定安全相关的参数空间,防止模型在学习新知识的同时忘记或破坏原有的安全对齐。具体来说,它通过识别LoRA参数空间中的安全子空间,并将领域相关的梯度更新限制在该子空间的正交补空间中,从而避免对安全造成直接影响。

技术框架:SafeAnchor框架包含三个主要阶段:1) 安全子空间识别:利用Fisher信息特征分解,在LoRA参数空间中识别出对安全至关重要的低秩子空间。2) 梯度约束:在进行领域自适应时,将梯度更新投影到安全子空间的正交补空间,从而避免直接修改安全相关的参数。3) 安全漂移监控与纠正:通过设定阈值,监控模型在自适应过程中的安全漂移情况,并在检测到漂移时,通过重放安全相关的样本进行纠正。

关键创新:SafeAnchor的关键创新在于它首次提出了在连续领域自适应场景下保持大语言模型安全性的方法。与现有方法只关注单任务微调不同,SafeAnchor能够有效地防止模型在学习新领域知识时,逐渐丧失原有的安全对齐。此外,通过Fisher信息特征分解识别安全子空间,并进行梯度约束,是一种高效且可扩展的安全保护策略。

关键设计:SafeAnchor的关键设计包括:1) 使用LoRA进行参数高效微调,降低计算成本。2) 使用Fisher信息矩阵的特征向量来表征安全子空间,捕捉安全相关的参数变化。3) 通过设置安全漂移阈值,灵活地控制纠正性重放的频率和强度。4) 梯度投影操作,确保领域自适应的更新不会对安全子空间产生显著影响。

📊 实验亮点

SafeAnchor在Llama-2-7B-Chat和Mistral-7B-Instruct模型上进行了评估,结果表明,在跨越三个领域和八个基准的连续自适应过程中,SafeAnchor保留了93.2%的原始安全对齐,比所有基线方法高出18-42个百分点。同时,SafeAnchor在领域任务上的性能与无约束微调的性能差距仅为1.5个百分点,表明该方法能够在保持安全性的同时,兼顾领域适应能力。

🎯 应用场景

SafeAnchor可应用于需要持续学习新知识的大语言模型,尤其是在医疗、法律、金融等高风险领域。通过该方法,可以有效防止模型在适应新领域的同时,产生不安全或有害的输出,从而提高模型在实际应用中的可靠性和安全性。未来,SafeAnchor可以进一步扩展到其他类型的模型和任务中,为构建安全可靠的人工智能系统提供保障。

📄 摘要(原文)

Safety alignment in large language models is remarkably shallow: it is concentrated in the first few output tokens and reversible by fine-tuning on as few as 100 adversarial examples. This fragility becomes critical in real-world deployment, where models undergo sequential adaptation across domains such as medicine, law, and code, causing safety guardrails to erode cumulatively. Yet all existing safety-preserving methods target only single-task fine-tuning, leaving the multi-domain sequential setting entirely unaddressed. We introduce SafeAnchor, a framework that anchors safety in place throughout continual adaptation. SafeAnchor first identifies low-rank safety subspaces in LoRA parameter space via Fisher Information eigendecomposition, then constrains domain-specific gradient updates to the orthogonal complement of these subspaces, and finally monitors for residual safety drift with threshold-triggered corrective replay. Evaluated on Llama-2-7B-Chat and Mistral-7B-Instruct across a three-domain pipeline and eight benchmarks, SafeAnchor retains 93.2% of original safety alignment, outperforming all baselines by 18-42 points, while matching unconstrained fine-tuning to within 1.5 points on domain tasks.