Adversarial Manipulation of Reasoning Models using Internal Representations
作者: Kureha Yamaguchi, Benjamin Etheridge, Andy Arditi
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-03 (更新: 2025-08-27)
备注: Accepted to the ICML 2025 Workshop on Reliable and Responsible Foundation Models (R2FM). 20 pages, 12 figures
🔗 代码/项目: GITHUB
💡 一句话要点
利用内部表征对抗操纵推理模型,发现并利用“谨慎”方向进行越狱攻击
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理模型 思维链 对抗攻击 越狱攻击 内部表征 激活空间 线性方向
📋 核心要点
- 大型语言模型(LLM)的安全性面临越狱攻击的威胁,现有方法主要关注提示工程,忽略了模型内部推理过程的影响。
- 该论文提出通过操纵模型在生成思维链(CoT)时的内部表征,特别是激活空间中的“谨慎”方向,来影响模型的最终输出。
- 实验表明,消融“谨慎”方向可显著提高有害顺从性,而干预CoT token激活足以控制最终输出,提升了越狱攻击的成功率。
📝 摘要(中文)
推理模型在给出最终输出前会生成思维链(CoT)token,但这种机制如何影响模型对越狱攻击的脆弱性尚不清楚。传统语言模型在提示-响应边界做出拒绝决策,但我们发现DeepSeek-R1-Distill-Llama-8B在CoT生成过程中就已做出决策。我们识别出CoT token生成过程中激活空间中的一个线性方向,可以预测模型是拒绝还是顺从,我们称之为“谨慎”方向,因为它对应于生成文本中谨慎的推理模式。消融模型激活中的这个方向会增加有害顺从性,从而有效地越狱模型。此外,我们还表明,仅干预CoT token激活就足以控制最终输出,并且将此方向纳入基于提示的攻击可以提高成功率。我们的研究结果表明,思维链本身是推理模型中对抗操纵的一个有希望的新目标。
🔬 方法详解
问题定义:该论文旨在研究推理模型在生成思维链(CoT)时的内部表征如何影响其对越狱攻击的脆弱性。现有方法主要集中在提示工程上,忽略了模型内部推理过程中的决策点,以及如何利用这些决策点进行对抗攻击。现有方法未能充分利用CoT生成过程中的信息,导致攻击效果受限。
核心思路:核心思路是识别并操纵模型在生成CoT时的内部表征,特别是激活空间中的“谨慎”方向。该方向与模型是否拒绝有害请求相关联。通过消融或增强该方向,可以影响模型的最终输出,从而实现越狱攻击或防御。这种方法利用了CoT生成过程中的中间状态,为对抗攻击提供了一个新的目标。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 分析模型在生成CoT时的激活空间,识别与拒绝/顺从行为相关的线性方向(“谨慎”方向)。2) 通过消融模型激活中的“谨慎”方向,观察模型对有害请求的顺从程度。3) 通过干预CoT token的激活,控制模型的最终输出。4) 将“谨慎”方向纳入基于提示的攻击中,提高攻击成功率。整体流程是从分析模型内部表征入手,到设计对抗攻击策略,再到验证攻击效果。
关键创新:该论文的关键创新在于:1) 首次揭示了推理模型在CoT生成过程中存在决策点,即“谨慎”方向。2) 提出了一种新的对抗攻击方法,通过操纵模型内部表征(CoT token激活)来实现越狱攻击。3) 证明了仅干预CoT token激活就足以控制最终输出,为对抗攻击提供了一种更精确的控制手段。与现有方法相比,该方法更加关注模型内部的推理过程,而非仅仅依赖提示工程。
关键设计:该研究的关键设计包括:1) 使用线性探针识别激活空间中的“谨慎”方向。具体方法是训练一个线性分类器,根据CoT token的激活来预测模型是否会拒绝请求。2) 通过消融激活向量在“谨慎”方向上的投影来削弱模型的拒绝能力。3) 设计了一种基于梯度的攻击方法,通过修改提示来增强激活向量在“谨慎”方向上的投影,从而提高攻击成功率。具体参数设置和损失函数细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该研究发现,消融DeepSeek-R1-Distill-Llama-8B模型激活中的“谨慎”方向,可以显著提高其对有害请求的顺从性,从而实现越狱攻击。此外,通过干预CoT token激活,可以有效控制模型的最终输出。将“谨慎”方向纳入基于提示的攻击中,可以提高攻击成功率。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性,通过识别和增强“谨慎”方向,可以提高模型对有害请求的防御能力。此外,该研究也为对抗攻击提供了一种新的思路,可以用于评估和改进模型的鲁棒性。未来,该方法可以扩展到其他类型的推理模型,并应用于更广泛的安全场景。
📄 摘要(原文)
Reasoning models generate chain-of-thought (CoT) tokens before their final output, but how this affects their vulnerability to jailbreak attacks remains unclear. While traditional language models make refusal decisions at the prompt-response boundary, we find evidence that DeepSeek-R1-Distill-Llama-8B makes these decisions within its CoT generation. We identify a linear direction in activation space during CoT token generation that predicts whether the model will refuse or comply -- termed the "caution" direction because it corresponds to cautious reasoning patterns in the generated text. Ablating this direction from model activations increases harmful compliance, effectively jailbreaking the model. We additionally show that intervening only on CoT token activations suffices to control final outputs, and that incorporating this direction into prompt-based attacks improves success rates. Our findings suggest that the chain-of-thought itself is a promising new target for adversarial manipulation in reasoning models. Code available at https://github.com/ky295/reasoning-manipulation.