Chain of Risk: Safety Failures in Large Reasoning Models and Mitigation via Adaptive Multi-Principle Steering

📄 arXiv: 2605.05678v1 📥 PDF

作者: Xiaomin Li, Jianheng Hou, Zheyuan Deng, Zhiwei Zhang, Taoran Li, Binghang Lu, Bing Hu, Yunhan Zhao, Yuexing Hao

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出自适应多原则引导(AMPS)框架,解决大型推理模型(LRM)推理链中的安全隐患问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链安全 测试时引导 模型对齐 人工智能安全 激活空间分析

📋 核心要点

  1. 现有安全评估仅关注最终答案,忽略了LRM推理链中可能存在的隐蔽性违规内容,导致安全评估存在盲区。
  2. 提出自适应多原则引导(AMPS)方法,通过学习安全原则的激活方向,在测试阶段动态干预模型的隐藏状态。
  3. 实验表明,该方法在DeepSeek-R1等模型上显著降低了不安全内容比例,同时保持了模型在基准测试中的高准确率。

📝 摘要(中文)

大型推理模型(LRM)通过展示思维链(CoT)提升了透明度与问题解决能力,但也引入了新的安全盲区:即便最终答案看似安全,其推理过程中仍可能包含违规内容。本研究基于二十项安全原则,对15个开源及闭源LRM在4.1万条提示词下的表现进行了评估。研究发现,推理轨迹中存在严重的“泄露”(推理不安全但答案安全)与“逃逸”(推理安全但答案不安全)现象,风险集中在虚假信息、法律合规及歧视等领域。为此,作者提出了自适应多原则引导(AMPS)技术,通过在测试时对特定安全原则进行激活方向修正,在保持模型推理能力的同时,显著降低了推理链与最终答案中的不安全内容比例。

🔬 方法详解

问题定义:当前LRM的安全评估主要依赖于最终输出,忽略了思维链(CoT)中可能存在的“推理风险”。这种风险表现为推理过程违规但答案合规,或推理过程合规但答案违规,导致模型在复杂推理任务中存在不可控的安全隐患。

核心思路:论文提出将安全原则转化为模型内部的激活方向。通过识别模型隐藏状态中偏离安全轨迹的向量,在推理过程中动态施加引导,从而在不改变模型权重的前提下,实时修正推理轨迹的安全性。

技术框架:该框架包含两个阶段:首先是基于二十项安全原则的离线分析,确定不同原则下的安全与不安全隐藏状态质心;其次是测试时的自适应引导,仅当当前隐藏状态接近不安全质心时,才应用对应的修正向量进行干预。

关键创新:引入了“自适应”机制,即并非对所有原则进行强制干预,而是根据当前推理状态与安全/不安全质心的距离,选择性地激活特定的引导方向,从而在安全性与模型推理性能之间取得平衡。

关键设计:利用白盒测试时引导技术,为每项安全原则学习一个特定的激活方向。通过计算当前隐藏状态与安全/不安全质心的余弦相似度或欧氏距离,动态调整模型内部的激活值,确保推理过程始终处于安全约束范围内。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在DeepSeek-R1-Qwen-7B模型上的实验显示,AMPS方法实现了40.8%的不安全内容平均减少率。同时,模型在BBH、GSM8K和MMLU等核心基准测试上的准确率保持在97.7%,证明了该方法在提升安全性的同时,能够极好地保留模型的逻辑推理能力,优于传统的微调或提示词工程方案。

🎯 应用场景

该研究适用于所有依赖思维链技术的推理模型,特别是在医疗、法律、金融等对安全性要求极高的领域。通过在推理阶段实时监控与干预,可有效防止模型在复杂逻辑推演中产生有害建议或泄露敏感信息,为构建可信、可控的AI推理系统提供技术支撑。

📄 摘要(原文)

Large reasoning models (LRMs) increasingly expose chain-of-thought-like reasoning for transparency, verification, and deliberate problem solving. This creates a safety blind spot: harmful or policy-violating content may appear in reasoning traces even when final answers appear safe. We test whether final-answer safety is a sufficient proxy for the full reasoning-answer trajectory by scoring both stages under a unified twenty-principle safety rubric. Using prompts from seven public harmfulness and jailbreak sources, plus four out-of-distribution (OOD) sources, we evaluate 15 open-weight and API-based LRMs across 41K prompts per model. Reasoning traces consistently reveal additional safety risks beyond final answers, especially in high-severity stage-wise failures: leak cases, where unsafe reasoning precedes a safe-looking answer, and escape cases, where benign-looking reasoning precedes an unsafe final response. Principle-level analysis shows that risk concentrates in misinformation, legal compliance, discrimination, physical harm, and psychological harm. We further propose adaptive multi-principle steering, a white-box test-time mitigation that learns one unsafe-to-safe activation direction per safety principle and activates only directions whose current hidden state is closer to the unsafe than safe centroid. On three steerable open reasoning models, adaptive steering reduces unsafe counts in both reasoning traces and final answers on held-out and OOD benchmarks. DeepSeek-R1-Qwen-7B achieves a 40.8% average unsafe-count reduction while retaining 97.7% macro-averaged accuracy on BBH, GSM8K, and MMLU. These results suggest that LRM safety should be evaluated and mitigated over the full exposed reasoning-answer trajectory, not only at the final-answer stage.