Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

作者: Guanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong

分类: cs.LG, cs.CL

发布日期: 2026-02-08

🔗 代码/项目: GITHUB

💡 一句话要点

提出OGPSA，通过正交梯度投影缓解安全对齐中的能力遗忘问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 持续学习 正交梯度投影 能力保留 对齐税 监督微调 直接偏好优化

📋 核心要点

现有安全对齐方法在提升模型安全性的同时，往往会损害模型的通用能力，即产生“对齐税”。
论文提出OGPSA方法，通过正交梯度投影，在安全对齐过程中尽量避免覆盖模型已有的通用能力。
实验结果表明，OGPSA在SFT、DPO和SFT->DPO等多种设置下，均能有效提升安全性和通用能力的帕累托前沿。

📝 摘要（中文）

大型语言模型（LLMs）常常面临对齐税：安全后训练会降低通用能力（例如，推理和编码）。我们认为这种税收主要源于顺序对齐中的持续学习式遗忘，其中分布偏移和冲突目标导致安全更新覆盖了预训练的能力。因此，我们将安全对齐视为一个持续学习（CL）问题，必须平衡可塑性（获取安全约束）和稳定性（保持通用能力）。我们提出用于安全对齐的正交梯度投影（OGPSA），这是一种轻量级方法，通过将每个安全更新约束为与捕获通用能力的学习子空间正交（在一阶意义上）来减轻干扰。具体来说，OGPSA从一个小参考集上的梯度估计一个低秩能力子空间，并将安全梯度投影到其正交补空间上，然后再进行更新。这产生了安全导向的更新，在保留对齐能力的同时，最大限度地减少了对先前知识的扰动。OGPSA是即插即用的，并集成到标准后训练流程中，无需大规模重放、辅助目标或重新训练。在监督微调（SFT）、直接偏好优化（DPO）和顺序SFT$ ightarrow$DPO设置中，OGPSA始终优于标准基线，从而改善了安全-效用帕累托前沿。例如，在SFT$ ightarrow$DPO下的Qwen2.5-7B-Instruct上，OGPSA在保持强大安全性的同时恢复了通用能力，将SimpleQA从0.53％提高到3.03％，将IFEval从51.94％提高到63.96％。

🔬 方法详解

问题定义：现有的大型语言模型安全对齐方法，例如监督微调（SFT）和直接偏好优化（DPO），在提升模型安全性的同时，往往会降低模型在通用任务上的性能，即产生所谓的“对齐税”。这种现象的根本原因是，安全对齐过程类似于持续学习，新的安全知识会覆盖或干扰模型已有的通用能力。

核心思路：论文的核心思路是将安全对齐视为一个持续学习问题，并借鉴持续学习中的方法来解决“对齐税”问题。具体来说，论文提出正交梯度投影（OGPSA）方法，其核心思想是在更新模型参数时，将安全相关的梯度投影到与通用能力相关的子空间的正交补空间上。这样可以确保安全更新主要影响与安全相关的参数，而尽量不干扰模型已有的通用能力。

技术框架：OGPSA方法可以集成到标准的后训练流程中，无需大规模重放、辅助目标或重新训练。其主要步骤包括：1）使用少量参考数据计算通用能力子空间；2）计算安全相关的梯度；3）将安全梯度投影到通用能力子空间的正交补空间上；4）使用投影后的梯度更新模型参数。

关键创新：OGPSA的关键创新在于利用正交梯度投影来解耦安全更新和通用能力。与传统的安全对齐方法相比，OGPSA能够更有效地平衡安全性和通用能力，从而缓解“对齐税”问题。OGPSA无需大规模重放或额外的训练目标，易于集成到现有的安全对齐流程中。

关键设计：OGPSA的关键设计包括：1）使用低秩近似来估计通用能力子空间，以降低计算复杂度；2）使用一阶梯度信息来近似参数空间的正交性；3）使用少量参考数据来计算通用能力子空间，以避免引入额外的训练成本。具体而言，作者使用SVD分解来估计低秩能力子空间，并使用投影矩阵将安全梯度投影到其正交补空间。损失函数与标准SFT或DPO相同，但梯度更新时会进行正交投影。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OGPSA在Qwen2.5-7B-Instruct模型上，使用SFT->DPO流程进行安全对齐时，能够在保持强大安全性的同时，显著提升通用能力。例如，在SimpleQA任务上，OGPSA将性能从0.53%提升到3.03%，在IFEval任务上，将性能从51.94%提升到63.96%。这些结果表明，OGPSA能够有效缓解“对齐税”问题，提升安全对齐的效率。

🎯 应用场景

OGPSA方法可以广泛应用于大型语言模型的安全对齐，尤其是在需要平衡安全性和通用能力的场景下。例如，可以用于提升聊天机器人的安全性，同时保持其在知识问答、文本生成等方面的能力。该方法还可以应用于其他机器学习模型的安全对齐，例如图像分类器和目标检测器。

📄 摘要（原文）

Large Language Models (LLMs) often incur an alignment tax: safety post-training can reduce general utility (e.g., reasoning and coding). We argue that this tax primarily arises from continual-learning-style forgetting in sequential alignment, where distribution shift and conflicting objectives cause safety updates to overwrite pre-trained competencies. Accordingly, we cast safety alignment as a continual learning (CL) problem that must balance plasticity (acquiring safety constraints) and stability (preserving general abilities). We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight method that mitigates interference by constraining each safety update to be orthogonal (in a first-order sense) to a learned subspace capturing general capabilities. Specifically, OGPSA estimates a low-rank capability subspace from gradients on a small reference set and projects the safety gradient onto its orthogonal complement before updating. This produces safety-directed updates that minimally perturb prior knowledge while retaining capacity for alignment. OGPSA is plug-and-play and integrates into standard post-training pipelines without large-scale replay, auxiliary objectives, or retraining. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFT$\rightarrow$DPO settings, OGPSA consistently improves the safety--utility Pareto frontier over standard baselines. For instance, on Qwen2.5-7B-Instruct under SFT$\rightarrow$DPO, OGPSA preserves strong safety while recovering general capability, improving SimpleQA from 0.53\% to 3.03\% and IFEval from 51.94\% to 63.96\%. Our source code is available at \href{https://github.com/SunGL001/OGPSA}{OGPSA}

Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理