Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

📄 arXiv: 2605.26772v1 📥 PDF

作者: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

分类: cs.AI

发布日期: 2026-05-26


💡 一句话要点

思维链干扰拒绝行为的简单引导:揭示大型推理模型的新型攻击面

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链 拒绝行为 激活引导 安全控制

📋 核心要点

  1. 大型推理模型(LRM)的拒绝行为控制复杂,现有方法难以有效干预。
  2. 通过激活引导和思维链重构,揭示了CoT在拒绝行为中的关键作用。
  3. 实验表明,CoT可独立携带顺从信号,为新型攻击提供了可能。

📝 摘要(中文)

大型推理模型(LRM)在生成最终输出前会产生思维链(CoT)轨迹,引入了可能使拒绝等控制机制复杂化的动态内部状态。与指令调优的LLM中拒绝行为由单一方向子空间介导不同,LRM中的拒绝还取决于CoT。在DeepSeek-R1-Distill-LLaMA-8B中,当CoT保持不变时,激活引导仅在39%的情况下逆转拒绝,但完全移除CoT后,这一比例增加到70%,表明CoT主动加强了拒绝。在模型在激活引导下重新生成CoT的两阶段干预中,拒绝在94%的情况下被逆转,即使在移除引导后,生成的CoT本身也能保留48%的效果。这表明CoT可以独立地携带和重建顺从信号。这些发现表明,LRM中的拒绝行为联合编码在残差流激活和CoT中。这种联合激活使LRM更能抵抗单独的激活层面的干预,但也暴露了CoT可能存在的替代表面攻击。

🔬 方法详解

问题定义:论文旨在研究大型推理模型(LRM)中的拒绝行为,并分析思维链(CoT)对其的影响。现有方法主要关注指令调优的LLM,认为拒绝行为由单一方向子空间介导,但忽略了LRM中CoT的动态影响,导致控制机制失效。因此,需要深入理解CoT在LRM拒绝行为中的作用,并探索新的干预方法。

核心思路:论文的核心思路是,LRM的拒绝行为不仅受残差流激活的影响,还与CoT密切相关,两者共同编码了拒绝信号。通过激活引导和CoT重构,可以有效地操纵LRM的拒绝行为。此外,CoT本身可以独立携带顺从信号,为攻击提供了新的途径。

技术框架:论文采用两阶段干预框架。第一阶段,使用激活引导技术尝试逆转LRM的拒绝行为,同时保持CoT不变。第二阶段,在激活引导下,让模型重新生成CoT。通过比较不同干预策略下的拒绝逆转率,分析CoT在拒绝行为中的作用。

关键创新:论文的关键创新在于揭示了CoT在LRM拒绝行为中的重要作用,并提出了CoT可以独立携带顺从信号的观点。这与以往认为拒绝行为主要由残差流激活介导的观点不同,为LRM的控制和安全研究提供了新的视角。

关键设计:论文的关键设计包括:1) 使用DeepSeek-R1-Distill-LLaMA-8B作为实验模型;2) 设计了保持CoT不变的激活引导实验,以及CoT重构实验;3) 通过比较不同实验条件下的拒绝逆转率,量化CoT的作用;4) 分析了重构后的CoT的语义内容,验证其携带顺从信号的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在DeepSeek-R1-Distill-LLaMA-8B模型中,当CoT保持不变时,激活引导仅能逆转39%的拒绝行为;移除CoT后,逆转率提升至70%。通过两阶段干预,拒绝逆转率可达94%,且重构后的CoT本身能保留48%的效果,证明CoT可独立携带顺从信号。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性,例如通过控制CoT来避免模型生成有害或不当内容。此外,该研究也为理解和利用CoT提供了新的思路,有助于开发更可控、更可靠的AI系统。未来,可以探索利用CoT进行模型解释性分析,或设计更有效的防御机制。

📄 摘要(原文)

Large reasoning models (LRMs) generate chain-of-thought (CoT) traces before producing final outputs, introducing a dynamic internal state that may complicate control mechanisms such as refusal. Unlike instruction-tuned LLMs, where refusal is mediated by a single directional subspace, refusal in large reasoning models (LRMs) additionally depends on the CoT. In DeepSeek-R1-Distill-LLaMA-8B, activation steering reverses refusal in only 39% of cases when the CoT is kept fixed, but removing the CoT entirely increases this to 70%, indicating that the CoT actively reinforces refusal. In a two-stage intervention where the model regenerates its CoT under activation steering, refusal is reversed in 94% of cases, while the resulting CoT alone retains 48% of this effect even after steering is removed. This suggests that the CoT can carry and reconstruct the compliance signal independently. These findings indicate that refusal in LRMs is jointly encoded in residual stream activations and CoT. This joint activation makes LRM more robust against activation-level interventions alone, but exposes CoT to a possible alternative surface attack.