The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions

📄 arXiv: 2502.09674v4 📥 PDF

作者: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia

分类: cs.CL, cs.AI

发布日期: 2025-02-13 (更新: 2025-05-27)

备注: Code and artifacts: https://github.com/BMPixel/safety-residual-space Accepted by ICML 2025

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM对齐的隐藏维度:正交安全方向的多维分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 多维分析 正交方向 越狱攻击 表征学习 安全漏洞

📋 核心要点

  1. 现有方法使用单一方向建模LLM安全行为,无法充分理解复杂的安全机制。
  2. 该论文通过研究安全微调期间表征变化的正交方向,揭示了安全对齐行为的多维控制。
  3. 实验表明,主导方向控制拒绝行为,次要方向影响拒绝表征,移除触发token可绕过安全能力。

📝 摘要(中文)

大型语言模型(LLM)的安全对齐行为,例如拒绝有害查询,可以用激活空间中的线性方向来表示。以往研究使用单一方向来建模安全行为,限制了对孤立安全特征的机制理解。本文发现,安全对齐行为是由多维方向共同控制的。具体来说,我们研究了Llama 3 8B在安全微调期间(用于拒绝越狱攻击)的表征变化向量空间。通过研究空间中的正交方向,我们首先发现一个主导方向控制着模型的拒绝行为,而多个较小的方向代表着不同的、可解释的特征,如假设性叙述和角色扮演。然后,我们测量了不同方向如何促进或抑制主导方向,展示了次要方向在塑造模型拒绝表征中的重要作用。最后,我们证明了移除有害查询中的某些触发token可以减轻这些方向的影响,从而绕过学习到的安全能力,为从多维角度理解安全对齐漏洞提供了新的见解。代码和工件可在https://github.com/BMPixel/safety-residual-space获得。

🔬 方法详解

问题定义:现有研究在理解大型语言模型(LLM)的安全对齐机制时,通常采用单一方向的向量来表示模型的安全行为,例如拒绝有害查询。这种方法的局限性在于,它无法捕捉到安全行为的复杂性和多面性,忽略了不同安全特征之间的相互作用,导致对安全机制的理解不够深入和全面。因此,需要一种更精细的方法来分析LLM的安全对齐行为,从而更好地理解和控制模型的安全性。

核心思路:本文的核心思路是将LLM的安全对齐行为视为由多个维度共同控制的。具体来说,通过研究安全微调过程中模型表征变化所构成的向量空间,并分析其中正交的方向,来揭示不同方向在控制模型安全行为中的作用。这种多维分析方法能够更全面地理解安全机制,并发现单一方向分析无法捕捉到的隐藏特征。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 对Llama 3 8B模型进行安全微调,使其具备拒绝越狱攻击的能力;2) 研究安全微调期间模型表征变化的向量空间;3) 对该向量空间进行正交分解,得到多个正交方向;4) 分析每个方向所代表的特征,例如主导方向和次要方向;5) 测量不同方向如何促进或抑制主导方向;6) 通过移除有害查询中的触发token来减轻某些方向的影响,从而绕过安全能力。

关键创新:该论文最重要的技术创新点在于提出了多维分析方法来研究LLM的安全对齐行为。与以往的单一方向分析方法相比,该方法能够更全面地理解安全机制,并发现隐藏的安全特征。此外,该研究还揭示了次要方向在塑造模型拒绝表征中的重要作用,以及通过移除触发token来绕过安全能力的可能性。

关键设计:在技术细节方面,该研究的关键设计包括:1) 选择Llama 3 8B作为研究对象;2) 采用安全微调方法来训练模型;3) 使用正交分解技术来分析表征变化向量空间;4) 设计实验来测量不同方向之间的相互作用;5) 通过移除触发token来评估安全能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,安全对齐行为由多维方向共同控制,其中一个主导方向控制拒绝行为,多个较小的方向代表不同的可解释特征。通过移除有害查询中的某些触发token,可以减轻这些方向的影响,从而绕过学习到的安全能力。该研究为理解安全对齐漏洞提供了新的视角。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,例如,通过识别和控制关键的安全方向,可以更有效地防止模型生成有害内容。此外,该研究还可以帮助开发更鲁棒的安全对齐方法,提高模型在面对恶意攻击时的防御能力。未来,该研究有望推动LLM安全领域的发展,为构建安全可信的人工智能系统奠定基础。

📄 摘要(原文)

Large Language Models' safety-aligned behaviors, such as refusing harmful queries, can be represented by linear directions in activation space. Previous research modeled safety behavior with a single direction, limiting mechanistic understanding to an isolated safety feature. In this work, we discover that safety-aligned behavior is jointly controlled by multi-dimensional directions. Namely, we study the vector space of representation shifts during safety fine-tuning on Llama 3 8B for refusing jailbreaks. By studying orthogonal directions in the space, we first find that a dominant direction governs the model's refusal behavior, while multiple smaller directions represent distinct and interpretable features like hypothetical narrative and role-playing. We then measure how different directions promote or suppress the dominant direction, showing the important role of secondary directions in shaping the model's refusal representation. Finally, we demonstrate that removing certain trigger tokens in harmful queries can mitigate these directions to bypass the learned safety capability, providing new insights on understanding safety alignment vulnerability from a multi-dimensional perspective. Code and artifacts are available at https://github.com/BMPixel/safety-residual-space.