Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks

📄 arXiv: 2605.05995v2 📥 PDF

作者: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao

分类: cs.CR, cs.AI, cs.CL

发布日期: 2026-05-07 (更新: 2026-05-08)

备注: Accepted to ICML 2026


💡 一句话要点

提出安全瓶颈正则化(SBR)方法,通过几何锚点防御大模型的有害微调攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 有害微调 几何瓶颈 模型鲁棒性 解嵌入层 防御机制

📋 核心要点

  1. 现有防御方法因高维参数空间的冗余性,易被攻击者通过正交优化轨迹绕过,导致安全对齐在持续微调下失效。
  2. 提出安全瓶颈正则化(SBR),将防御焦点从参数空间转移至解嵌入层,通过几何锚定机制强制约束输出隐藏状态。
  3. 实验表明,SBR仅需单个安全锚点即可显著降低有害得分至10以下,且在保持模型良性任务性能方面表现优异。

📝 摘要(中文)

大语言模型(LLM)的安全对齐仍易受有害微调(HFT)的威胁。现有防御手段主要通过约束参数、梯度或内部表征来实施,但研究发现这些方法在持续的有害微调下极易失效。分析表明,失效根源在于高维参数空间的固有冗余性:攻击者能够利用与防御约束正交的优化轨迹,在表面遵守安全限制的同时恢复有害能力。为此,本文提出了安全瓶颈正则化(SBR)。SBR将防御重心从冗余的参数空间转移至作为几何瓶颈的解嵌入(unembedding)层。通过将有害查询的最终隐藏状态锚定在安全对齐模型的对应状态上,SBR确保了模型即便在持续有害微调下也能维持安全响应。实验证明,仅需单个安全锚点即可将有害得分降至10以下,同时保持良性下游任务的竞争性性能。

🔬 方法详解

问题定义:论文旨在解决大语言模型在微调阶段面临的“有害微调(HFT)”攻击问题。现有防御手段(如参数冻结、梯度裁剪等)受限于高维参数空间的冗余性,攻击者可通过寻找与防御约束正交的优化路径,在不触发防御机制的前提下恢复模型的有害生成能力。

核心思路:论文提出将防御重心从广泛的参数空间收缩至模型的“几何瓶颈”——即解嵌入(unembedding)层。通过强制将有害查询的最终隐藏状态与安全对齐模型的隐藏状态对齐,从几何层面限制了模型输出有害信息的可能性。

技术框架:SBR方法通过引入安全锚点(Safety Anchor)来引导模型训练。在微调过程中,模型不仅要优化下游任务目标,还需最小化当前隐藏状态与预设安全锚点之间的距离,从而在输出层前建立一道安全屏障。

关键创新:该方法的核心创新在于将防御视角从“参数约束”转向“表征锚定”。通过利用解嵌入层的瓶颈特性,SBR有效地将安全对齐的几何结构固化在模型中,使其对微调过程中的参数扰动具有极强的鲁棒性。

关键设计:SBR通过损失函数显式地锚定最终隐藏状态,确保有害查询的输出分布被限制在安全区域内。实验中仅需单个安全锚点即可实现高效防御,且该设计对模型在良性任务上的性能损耗极小,实现了安全性与实用性的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,SBR在面对持续有害微调攻击时表现出极强的防御能力,成功将有害得分(Harmful Score)降低至10以下。与现有防御基线相比,SBR在维持模型良性下游任务性能的同时,展现了更优的鲁棒性,证明了仅需单个安全锚点即可实现高效且低成本的安全加固。

🎯 应用场景

该研究适用于大语言模型的全生命周期安全防护,特别是在企业私有化部署、开源模型微调及第三方插件集成场景中。通过SBR技术,开发者可以有效防止模型在下游任务微调过程中被恶意注入有害指令,保障模型输出的合规性与安全性,降低AI系统被滥用的风险。

📄 摘要(原文)

The safety alignment of Large Language Models (LLMs) remains vulnerable to Harmful Fine-tuning (HFT). While existing defenses impose constraints on parameters, gradients, or internal representations, we observe that they can be effectively circumvented under persistent HFT. Our analysis traces this failure to the inherent redundancy of the high-dimensional parameter space: attackers exploit optimization trajectories that are orthogonal to defense constraints to restore harmful capabilities while deceptively adhering to safety restrictions. To address this, we propose Safety Bottleneck Regularization (SBR). SBR shifts the defensive focus from the redundant parameter space to the unembedding layer, which serves as a geometric bottleneck. By anchoring the final hidden states of harmful queries to those of the safety-aligned model, SBR enables the model to maintain safe responses even under persistent HFT. Extensive experiments confirm SBR's effectiveness, demonstrating that utilizing just a single safety anchor is sufficient to reduce the Harmful Score to $<$10 while preserving competitive performance on benign downstream tasks.