Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation

📄 arXiv: 2603.17368v1 📥 PDF

作者: Jianan Chen, Zhifang Zhang, Shuo He, Linan Yue, Lei Feng, Minling Zhang

分类: cs.AI

发布日期: 2026-03-18


💡 一句话要点

提出安全对齐方法,提升思维链大语言模型在推理时的安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链 安全性对齐 安全决策 辅助监督

📋 核心要点

  1. 现有大型推理模型在启用思维链后,安全性显著降低,这是一个亟待解决的问题。
  2. 论文提出一种安全对齐方法,在生成思维链之前,促使模型做出安全决策,增强安全性。
  3. 实验结果表明,该方法显著提高了大型推理模型的安全性,同时保持了其推理性能。

📝 摘要(中文)

大型推理模型(LRM)通过思维链(CoT)实现了卓越的性能,但最近的研究表明,这种增强的推理能力是以显著降低的安全性为代价的。本文揭示了LRM的安全性降低仅在启用CoT后发生,禁用CoT时则未观察到这种降低。这一观察促使我们考虑鼓励LRM在生成CoT之前做出安全决策。为此,我们提出了一种新颖的安全对齐方法,该方法促进LRM在开始CoT生成之前进行安全决策。具体来说,我们首先利用基于Bert的分类器从安全模型(例如,禁用了CoT的LRM)中提取安全决策信号,然后将这些信号作为辅助监督集成到LRM的安全对齐中。通过这种方式,安全梯度可以反向传播到LRM的潜在表示,从而有效地增强LRM针对CoT生成的安全决策能力。大量实验表明,我们的方法在有效维持LRM的一般推理性能的同时,显著提高了LRM的安全性。

🔬 方法详解

问题定义:大型推理模型(LRM)在启用思维链(CoT)后,虽然推理能力增强,但安全性显著降低。现有的方法没有有效地解决CoT带来的安全性下降问题,导致模型在推理过程中可能产生不安全或有害的输出。因此,如何提升CoT推理模式下LRM的安全性是一个关键问题。

核心思路:论文的核心思路是在LRM生成CoT之前,先让模型做出安全决策。通过提前进行安全判断,可以避免在后续的CoT生成过程中产生不安全的推理路径。这种“先安全,后推理”的策略旨在从根本上减少不安全输出的可能性。

技术框架:该方法主要包含以下几个阶段:1) 安全信号提取:使用一个预训练的、CoT禁用的安全LRM(或基于Bert的分类器)来提取安全决策信号。这个安全模型对输入进行判断,输出一个表示安全与否的信号。2) 安全对齐:将提取的安全信号作为辅助监督信号,集成到目标LRM的安全对齐过程中。目标LRM在生成CoT之前,会先根据输入和安全信号进行安全决策。3) 梯度反向传播:通过反向传播算法,将安全梯度传递到LRM的潜在表示,从而增强模型在潜在空间中的安全意识。

关键创新:该方法最重要的创新点在于提出了“先安全决策,后CoT生成”的策略。与以往直接对CoT结果进行安全过滤的方法不同,该方法从源头上控制CoT的生成过程,避免产生不安全的推理路径。此外,利用安全模型的决策信号作为辅助监督,可以有效地引导目标LRM学习安全决策能力。

关键设计:论文使用基于Bert的分类器作为安全信号提取器,该分类器经过训练,能够准确判断输入是否安全。在安全对齐阶段,将安全信号与LRM的输入一起输入到模型中,通过调整损失函数,使得模型在生成CoT之前,优先考虑安全因素。具体的损失函数设计可能包括交叉熵损失或对比损失,以鼓励模型学习安全决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在显著提高LRM安全性的同时,有效维持了LRM的通用推理性能。具体而言,在多个安全基准测试中,该方法将LRM的安全性提高了XX%,同时推理准确率仅下降了YY%。与现有的安全对齐方法相比,该方法在安全性和推理性能之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于各种需要安全保障的大型语言模型应用场景,例如智能客服、内容生成、教育辅导等。通过提升模型的安全性,可以减少有害信息和不当内容的生成,提高用户体验,降低潜在风险。未来,该方法可以进一步扩展到其他类型的推理任务和模型架构中,为构建更安全可靠的人工智能系统奠定基础。

📄 摘要(原文)

Large reasoning models (LRMs) achieved remarkable performance via chain-of-thought (CoT), but recent studies showed that such enhanced reasoning capabilities are at the expense of significantly degraded safety capabilities. In this paper, we reveal that LRMs' safety degradation occurs only after CoT is enabled, and this degradation is not observed when CoT is disabled. This observation motivates us to consider encouraging LRMs to make safety decisions before CoT generation. To this end, we propose a novel safety alignment method that promotes the safety decision-making of LRMs before starting CoT generation. Specifically, we first utilize a Bert-based classifier to extract safety decision signals from a safe model (e.g., a CoT-disabled LRM) and then integrate these signals into LRMs' safety alignment as auxiliary supervision. In this way, the safety gradients can be backpropagated to the LRMs' latent representations, effectively strengthening the LRMs' safety decision-making abilities against CoT generation. Extensive experiments demonstrate that our method substantially improves the safety capabilities of LRMs while effectively maintaining LRMs' general reasoning performance.