There Is More to Refusal in Large Language Models than a Single Direction

📄 arXiv: 2602.02132v1 📥 PDF

作者: Faaiz Joad, Majd Hawasly, Sabri Boughorbel, Nadir Durrani, Husrev Taha Sencar

分类: cs.CL

发布日期: 2026-02-02


💡 一句话要点

揭示大语言模型拒绝行为的复杂性:并非单一激活方向控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 拒绝行为 激活空间 线性引导 安全性

📋 核心要点

  1. 现有研究简化了大语言模型拒绝行为的理解,认为其受单一激活方向控制,这限制了对拒绝行为的精细化控制。
  2. 该研究发现,不同类型的拒绝行为对应于激活空间中不同的方向,揭示了拒绝行为的复杂性。
  3. 实验表明,尽管拒绝方向不同,但线性引导在拒绝和过度拒绝之间产生相似的权衡,表明存在共享的控制机制。

📝 摘要(中文)

先前研究认为,大语言模型中的拒绝行为由单一激活空间方向介导,从而可以进行有效的引导和消融。本文表明这种观点是不完整的。通过对包括安全性、不完整或不支持的请求、拟人化和过度拒绝等11个类别的拒绝和不合规行为进行分析,我们发现这些拒绝行为对应于激活空间中几何上不同的方向。然而,尽管存在这种多样性,沿着任何与拒绝相关的方向进行线性引导都会产生几乎相同的拒绝与过度拒绝的权衡,表现为共享的一维控制旋钮。不同方向的主要影响不是模型是否拒绝,而是它如何拒绝。

🔬 方法详解

问题定义:现有研究倾向于将大语言模型(LLM)的拒绝行为归因于激活空间中的单一方向。这种简化忽略了不同类型拒绝(例如,安全拒绝、能力不足拒绝)可能具有不同的内在机制。因此,如何更准确地理解和控制LLM的拒绝行为成为一个关键问题。

核心思路:本文的核心思路是,通过分析不同类型拒绝行为在激活空间中的几何表示,揭示它们之间的关系。研究假设,如果不同类型的拒绝行为确实对应于不同的机制,那么它们在激活空间中应该表现为不同的方向。同时,研究也关注这些不同方向之间是否存在某种共享的控制机制。

技术框架:该研究首先定义了11个类别的拒绝和不合规行为,包括安全性、不完整或不支持的请求、拟人化和过度拒绝等。然后,通过实验,确定每种拒绝行为在LLM激活空间中对应的方向。具体来说,研究人员通过提示工程诱导LLM产生特定类型的拒绝,并记录相应的激活向量。最后,通过分析这些激活向量之间的几何关系,例如计算它们之间的夹角,来判断它们是否对应于不同的方向。

关键创新:该研究最重要的创新点在于,它挑战了先前研究中关于LLM拒绝行为由单一激活方向控制的观点。通过实验,研究人员证明了不同类型的拒绝行为对应于激活空间中几何上不同的方向。这表明LLM的拒绝行为比先前认为的更加复杂和多样化。

关键设计:研究中一个关键的设计是使用线性引导来控制LLM的拒绝行为。具体来说,研究人员沿着不同的拒绝方向进行线性引导,并观察LLM的输出。实验结果表明,尽管拒绝方向不同,但线性引导在拒绝和过度拒绝之间产生相似的权衡。这表明存在一个共享的一维控制旋钮,可以用来调节LLM的拒绝程度。

🖼️ 关键图片

fig_0

📊 实验亮点

研究发现,11种不同类型的拒绝行为在激活空间中对应于不同的方向,挑战了单一方向控制的假设。尽管如此,沿着任何拒绝相关方向的线性引导都会产生相似的拒绝与过度拒绝的权衡,表明存在共享的一维控制机制。这为理解和控制LLM的拒绝行为提供了新的视角。

🎯 应用场景

该研究成果可应用于提升大语言模型的安全性和可靠性。通过理解不同类型拒绝行为的内在机制,可以更有效地控制模型的输出,避免不必要的拒绝或过度拒绝。这对于开发安全可靠的AI助手、聊天机器人等应用至关重要,并有助于提高用户体验。

📄 摘要(原文)

Prior work argues that refusal in large language models is mediated by a single activation-space direction, enabling effective steering and ablation. We show that this account is incomplete. Across eleven categories of refusal and non-compliance, including safety, incomplete or unsupported requests, anthropomorphization, and over-refusal, we find that these refusal behaviors correspond to geometrically distinct directions in activation space. Yet despite this diversity, linear steering along any refusal-related direction produces nearly identical refusal to over-refusal trade-offs, acting as a shared one-dimensional control knob. The primary effect of different directions is not whether the model refuses, but how it refuses.