SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment
作者: Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha
分类: cs.AI, cs.CL
发布日期: 2026-06-01
备注: 19 pages, 8 figures, 14 tables. Submitted to EMNLP 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
SafeSteer:面向安全对齐的局部化On-Policy蒸馏方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全对齐 On-Policy蒸馏 激活Steering 局部化训练
📋 核心要点
- 现有LLM安全对齐方法依赖大量通用数据或奖励模型,成本高昂且易损害模型通用能力。
- SafeSteer通过激活steering构建安全教师模型,并仅对安全相关的token进行局部on-policy蒸馏。
- 实验表明,SafeSteer仅用少量有害样本即可在保证通用能力的同时,显著提升LLM的安全性。
📝 摘要(中文)
将大型语言模型(LLMs)与人类价值观对齐通常会降低其通用能力,即所谓的对齐税。现有方法通过平衡双重目标来缓解这个问题,但这严重依赖于大量的通用数据或辅助奖励模型。本文认为,由于安全特征本质上在输出分布中是稀疏的,因此对齐需要局部修改,而不是全局权衡。为此,我们提出了SafeSteer,它执行仅限于安全token的on-policy蒸馏。首先,我们通过激活steering构建一个安全教师模型。基于这个教师模型,我们开发了一种安全token选择算法。因此,SafeSteer在训练期间将反向KL散度惩罚限制在这些token上,以保留通用能力。在各种模型上的实验结果表明,与现有方法相比,我们的SafeSteer在安全性和通用能力之间实现了更好的权衡,在七个安全基准上获得了强大的安全性能,而在五个通用能力基准上的退化最小。值得注意的是,SafeSteer仅需要100个有害样本,而无需使用任何通用数据,不到先前基线的1%,从而大大降低了对齐成本。
🔬 方法详解
问题定义:现有的大型语言模型安全对齐方法,如那些依赖于强化学习或微调的方法,通常需要大量的通用数据或辅助奖励模型。这些方法不仅计算成本高昂,而且容易导致“对齐税”,即在提升安全性的同时损害模型的通用能力。现有的全局性调整策略无法有效区分安全相关的局部特征,导致不必要的性能损失。
核心思路:SafeSteer的核心思路是,安全问题通常只体现在输出文本的少数几个token上,因此不需要对整个模型进行全局调整,而只需要对这些“安全token”进行局部干预。通过聚焦于这些token,可以更有效地提升安全性,同时最大限度地保留模型的通用能力。这种局部化的策略降低了对大量数据的依赖,并减少了对模型原有能力的干扰。
技术框架:SafeSteer的整体框架包含以下几个主要阶段:1) 安全教师模型构建:利用激活steering技术,引导模型生成更安全的输出,从而构建一个安全教师模型。2) 安全Token选择:开发一种算法,用于识别和选择与安全相关的token。3) 局部On-Policy蒸馏:使用安全教师模型的输出作为目标,对学生模型进行蒸馏训练,但只对选定的安全token施加反向KL散度惩罚。
关键创新:SafeSteer的关键创新在于其局部化的on-policy蒸馏策略。与传统的全局蒸馏方法不同,SafeSteer只关注安全相关的token,从而实现了更高效、更精确的安全对齐。此外,SafeSteer利用激活steering技术构建安全教师模型,避免了对大量标注数据的依赖。
关键设计:SafeSteer的关键设计包括:1) 激活Steering:通过调整特定神经元的激活值来引导模型生成更安全的输出。具体实现方式未知,论文可能在附录或后续工作中给出。2) 安全Token选择算法:该算法用于识别哪些token与安全问题相关。具体算法细节未知,但其目标是尽可能准确地定位需要干预的token。3) 反向KL散度惩罚:在蒸馏训练过程中,只对选定的安全token施加反向KL散度惩罚,以促使学生模型的输出向安全教师模型的输出靠拢。具体损失函数的权重设置未知。
🖼️ 关键图片
📊 实验亮点
SafeSteer在七个安全基准上取得了强大的安全性能,同时在五个通用能力基准上的性能退化最小。更重要的是,SafeSteer仅使用100个有害样本,而无需任何通用数据,这比以前的基线方法使用的样本量少于1%。这表明SafeSteer在降低安全对齐成本方面具有显著优势。
🎯 应用场景
SafeSteer可应用于各种需要安全保障的大型语言模型应用场景,例如聊天机器人、内容生成、代码生成等。通过降低安全对齐的成本,SafeSteer使得在资源有限的情况下也能开发出安全可靠的LLM应用成为可能。该方法有望推动LLM在安全敏感领域的广泛应用,例如医疗、金融等。
📄 摘要(原文)
Aligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing methods mitigate this by balancing dual objectives, which heavily rely on massive general-purpose data or auxiliary reward models. In this paper, we argue that, because safety features are inherently sparse within the output distribution, alignment requires localized modifications rather than global trade-offs. To this end, we propose SafeSteer, which performs on-policy distillation confined to safety tokens. First, we construct a safety teacher via activation steering. Based on this teacher, we develop a safety token selection algorithm. Consequently, SafeSteer restricts the reverse KL penalty to these tokens during training to preserve general capabilities. Experimental results across diverse models show that our SafeSteer achieves a superior trade-off between safety and general capability compared with existing methods, attaining strong safety performance on seven safety benchmarks with only minimal degradation on five general capability benchmarks. Notably, SafeSteer requires only 100 harmful samples without using any general-purpose data, less than 1% of what previous baselines used, considerably reducing alignment cost. More details are on our project page at https://anjingkun.github.io/SafeSteer.