Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

📄 arXiv: 2508.20766v1 📥 PDF

作者: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-08-28

备注: Under Review


💡 一句话要点

提出Rank-One Safety Injection (ROSI),通过秩一权重修改增强LLM安全性对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 白盒方法 权重引导 秩一更新

📋 核心要点

  1. 现有LLM安全机制易被绕过,通过消融模型内部特定表示方向即可实现。
  2. ROSI通过秩一权重修改,将模型激活导向拒绝有害请求的子空间,增强安全对齐。
  3. 实验表明,ROSI提高安全拒绝率,同时保持模型在标准基准上的性能。

📝 摘要(中文)

大型语言模型(LLM)中的安全对齐通常涉及调节内部表示,以拒绝有害请求。最近的研究表明,这些安全机制可以通过消融或移除模型内的特定表示方向来绕过。本文提出了一种相反的方法:秩一安全注入(ROSI),这是一种白盒方法,通过永久性地将模型的激活导向拒绝介导子空间来增强模型的安全对齐。ROSI作为一种简单的、无需微调的秩一权重修改,应用于所有残差流写入矩阵。所需的安全性方向可以从一小组有害和无害的指令对中计算出来。实验表明,ROSI持续提高安全拒绝率(由Llama Guard 3评估),同时保持模型在MMLU、HellaSwag和Arc等标准基准上的效用。此外,ROSI还可以通过放大其自身的潜在安全方向来重新对齐“未审查”的模型,证明了其作为一种有效的最后一英里安全程序的实用性。结果表明,有针对性的、可解释的权重引导是一种廉价而有效的机制,可以提高LLM的安全性,补充了资源密集型微调范式。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的安全对齐机制容易受到攻击,攻击者可以通过移除或修改模型内部的特定表示方向来绕过这些安全机制,导致模型输出有害内容。现有的安全对齐方法通常需要大量的微调和资源消耗,并且难以解释其内部工作原理。

核心思路:ROSI的核心思路是通过直接修改模型的权重,永久性地将模型的激活导向一个“安全”的方向。具体来说,ROSI通过在模型的残差流写入矩阵上进行秩一更新,从而放大模型中已有的、用于拒绝有害请求的潜在安全方向。这种方法无需微调,计算成本低,并且易于理解和解释。

技术框架:ROSI的技术框架非常简洁。首先,需要准备一小批有害和无害的指令对。然后,利用这些指令对计算出一个“安全方向”,该方向代表了模型在处理无害指令时的激活状态与处理有害指令时的激活状态之间的差异。最后,将这个安全方向用于修改模型的残差流写入矩阵,具体来说,是在每个写入矩阵上添加一个秩一矩阵,该秩一矩阵的方向与安全方向对齐。

关键创新:ROSI的关键创新在于其简单性和有效性。与传统的微调方法相比,ROSI无需大量的训练数据和计算资源,即可显著提高模型的安全性。此外,ROSI是一种白盒方法,可以清晰地理解其内部工作原理,从而更容易进行调试和改进。ROSI通过直接修改权重,而非依赖复杂的训练过程,实现了对模型行为的精准控制。

关键设计:ROSI的关键设计在于秩一更新的方向和幅度。方向的选择至关重要,需要准确地捕捉模型中已有的安全方向。幅度的大小也需要仔细调整,过大的幅度可能会损害模型的性能,而过小的幅度则可能无法有效地提高安全性。论文中,安全方向是通过计算有害和无害指令对的激活差异来确定的。秩一更新的幅度是一个超参数,可以通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ROSI能够显著提高Llama Guard 3的安全拒绝率,同时保持模型在MMLU、HellaSwag和Arc等标准基准上的性能。ROSI还可以重新对齐“未审查”的模型,证明了其作为一种有效的安全程序的潜力。具体来说,ROSI在提高安全性的同时,对模型效用的影响很小,这表明ROSI是一种高效且实用的安全对齐方法。

🎯 应用场景

ROSI可应用于各种大型语言模型,作为一种轻量级的安全对齐方法。它可以用于增强现有模型的安全性,也可以用于重新对齐“未审查”的模型。ROSI的低成本和易用性使其成为一种有吸引力的最后一英里安全程序,可以快速部署到生产环境中,降低LLM被恶意利用的风险。

📄 摘要(原文)

Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.