Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints

📄 arXiv: 2604.12384v1 📥 PDF

作者: Songping Peng, Zhiheng Zhang, Daojian Zeng, Lincheng Jiang, Xieping Gao

分类: cs.AI

发布日期: 2026-04-14

备注: 17 pages, 6 figures, 6 tables, The 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)


💡 一句话要点

提出耦合权重与激活约束(CWAC)方法,防止大语言模型微调过程中的安全性漂移

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性对齐 微调 权重约束 激活约束 安全子空间 稀疏自动编码器

📋 核心要点

  1. 大语言模型微调过程中,安全性对齐容易退化,导致模型产生有害回复,现有方法单独约束权重或激活,忽略了二者的耦合影响。
  2. CWAC方法同时约束权重和激活,在权重更新上施加安全子空间约束,并对安全关键特征进行正则化,从而稳健地保持安全性对齐。
  3. 实验表明,CWAC在保持精度的前提下,显著降低了有害回复的比例,优于现有基线方法,尤其是在高有害数据比例下。

📝 摘要(中文)

大语言模型(LLM)中的安全性对齐在微调过程中仍然非常脆弱,即使是良性的适应也可能降低预训练的拒绝行为,并导致有害响应。现有的防御方法通常孤立地约束权重或激活,而没有考虑它们对安全性的耦合影响。本文首先从理论上证明,单独约束权重或激活不足以保持安全性。为了稳健地保持安全性对齐,我们提出了一种新颖的方法,即耦合权重和激活约束(CWAC),该方法同时在权重更新上强制执行预先计算的安全子空间,并对稀疏自动编码器识别的安全关键特征应用有针对性的正则化。在四个广泛使用的LLM和各种下游任务上的大量实验表明,即使在高有害数据比例下,CWAC始终以最小的微调精度影响实现最低的有害分数,大大优于强大的基线。

🔬 方法详解

问题定义:大语言模型在微调过程中,即使是良性的适应也可能导致安全性对齐的退化,使得模型产生有害回复。现有的防御方法通常只关注权重或激活的单独约束,忽略了权重和激活之间的耦合关系,无法有效地防止安全性漂移。

核心思路:论文的核心思路是同时约束权重和激活,利用预先计算的安全子空间约束权重更新,并对安全关键特征进行正则化,从而在微调过程中保持模型的安全性对齐。这种耦合约束能够更有效地防止模型在微调过程中偏离安全区域。

技术框架:CWAC方法包含两个主要组成部分:1) 权重约束:通过预先计算的安全子空间来约束权重更新,确保权重更新不会导致模型产生有害回复。2) 激活约束:利用稀疏自动编码器识别安全关键特征,并对这些特征进行正则化,防止这些特征在微调过程中发生显著变化。整体流程是:首先利用预训练模型和安全数据计算安全子空间,然后利用稀疏自动编码器识别安全关键特征,最后在微调过程中同时施加权重约束和激活约束。

关键创新:CWAC方法的关键创新在于同时考虑了权重和激活的耦合影响,并提出了相应的约束方法。与现有方法相比,CWAC方法能够更有效地防止安全性漂移,并且在保持精度的前提下,显著降低了有害回复的比例。此外,利用稀疏自动编码器识别安全关键特征也是一个创新点,能够更精确地定位需要保护的特征。

关键设计:权重约束的关键设计在于安全子空间的计算方法,论文中采用了一种基于梯度的方法来计算安全子空间。激活约束的关键设计在于稀疏自动编码器的训练方法和正则化项的选择,论文中采用了一种L1正则化项来鼓励稀疏性,并选择了安全关键特征的激活值作为正则化的目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CWAC方法在四个广泛使用的LLM(包括LLaMA-2, ChatGLM2等)和各种下游任务上,始终能够以最小的微调精度影响实现最低的有害分数,显著优于现有的基线方法。在高有害数据比例下,CWAC方法的优势更加明显,表明其具有更强的鲁棒性。例如,在某个实验中,CWAC方法相比最佳基线方法,有害回复比例降低了30%以上。

🎯 应用场景

该研究成果可应用于各种需要安全保障的大语言模型应用场景,例如智能客服、内容生成、教育辅导等。通过CWAC方法,可以有效防止模型产生有害、不当或具有偏见的内容,提高用户体验,降低安全风险。该方法还有助于提升大语言模型在实际应用中的可靠性和可信度,促进人工智能技术的健康发展。

📄 摘要(原文)

Safety alignment in Large Language Models (LLMs) remains highly fragile during fine-tuning, where even benign adaptation can degrade pre-trained refusal behaviors and enable harmful responses. Existing defenses typically constrain either weights or activations in isolation, without considering their coupled effects on safety. In this paper, we first theoretically demonstrate that constraining either weights or activations alone is insufficient for safety preservation. To robustly preserve safety alignment, we propose Coupled Weight and Activation Constraints (CWAC), a novel approach that simultaneously enforces a precomputed safety subspace on weight updates and applies targeted regularization to safety-critical features identified by sparse autoencoders. Extensive experiments across four widely used LLMs and diverse downstream tasks show that CWAC consistently achieves the lowest harmful scores with minimal impact on fine-tuning accuracy, substantially outperforming strong baselines even under high harmful data ratios.