Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability

📄 arXiv: 2512.01848v1 📥 PDF

作者: Jinghan Jia, Nathalie Baracaldo, Sijia Liu

分类: cs.CL

发布日期: 2025-12-01


💡 一句话要点

提出基于强化学习的安全大模型推理框架,提升安全性的同时保持推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型推理模型 安全对齐 思维链 奖励函数

📋 核心要点

  1. 现有基于监督微调(SFT)的安全对齐方法在大型推理模型(LRMs)中表现出安全改进不一致、推理能力下降以及泛化能力差等问题。
  2. 论文提出利用强化学习(RL)框架,通过奖励反馈直接优化模型策略,以实现更具适应性和稳定性的安全对齐,从而解决SFT的局限性。
  3. 实验结果表明,RL方法在多个模型系列和基准测试中,能够实现更强且更一致的安全收益,同时保持模型的推理能力。

📝 摘要(中文)

大型推理模型(LRMs)通过生成显式的思维链(CoT)推理来扩展大型语言模型,从而显著提高数学和逻辑问题的解决能力。然而,这种显式的推理过程也带来了新的安全风险,因为不安全的行为经常出现在中间推理轨迹中,即使最终答案看起来是无害的。现有的安全对齐方法主要依赖于在面向安全的长CoT数据集上进行监督微调(SFT)。虽然直观,但我们发现SFT产生的安全改进不一致,降低了推理能力,并且在模型系列中的泛化能力较差。这些限制表明,纯粹的监督方法不足以在LRM中实现稳健的安全对齐。为了解决这个问题,我们研究了强化学习(RL)作为LRM安全训练的补充优化框架。与SFT不同,RL直接使用奖励反馈来优化模型策略,从而实现更具适应性和更稳定的对齐。跨多个模型系列和基准的广泛实验表明,RL实现了更强和更一致的安全收益,同时保持了推理能力。对反思动态和token级熵的进一步分析表明,RL抑制了不安全的探索性推理,同时保留了反思深度,从而产生了更安全和更可靠的推理过程。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRMs)中,使用监督微调(SFT)进行安全对齐时出现的安全改进不一致、推理能力下降以及泛化能力差的问题。现有SFT方法难以有效抑制推理过程中的不安全行为,即使最终答案正确,中间步骤可能存在风险。

核心思路:论文的核心思路是利用强化学习(RL)直接优化模型的策略,通过奖励函数对模型的行为进行引导,从而在推理过程中抑制不安全行为,同时鼓励正确的推理步骤。这种方法能够更灵活地调整模型的行为,避免了SFT方法中可能出现的过拟合和泛化能力不足的问题。

技术框架:整体框架包含以下几个主要阶段:1) 使用预训练的大型语言模型作为基础模型;2) 构建包含安全和推理能力奖励的奖励函数;3) 使用强化学习算法(例如,近端策略优化PPO)对模型进行训练,使其能够最大化累积奖励;4) 对训练后的模型进行评估,验证其安全性和推理能力。

关键创新:最重要的技术创新点在于将强化学习引入到大型推理模型的安全对齐中。与传统的监督学习方法相比,强化学习能够更直接地优化模型的行为,从而更好地平衡安全性和推理能力。此外,通过精心设计的奖励函数,可以更精确地控制模型的行为,避免出现不安全的推理步骤。

关键设计:奖励函数的设计是关键。它需要包含两部分:一部分是安全奖励,用于惩罚模型在推理过程中出现的不安全行为;另一部分是推理能力奖励,用于鼓励模型进行正确的推理。具体的奖励函数形式和参数设置需要根据具体的任务和模型进行调整。此外,强化学习算法的选择和参数设置也会影响训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于强化学习的安全对齐方法在多个模型系列和基准测试中,能够实现比监督微调(SFT)更强且更一致的安全收益,同时保持模型的推理能力。通过分析反思动态和token级熵,发现RL能够有效抑制不安全的探索性推理,同时保留反思深度,从而产生更安全和更可靠的推理过程。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大型推理模型,例如金融风控、医疗诊断、自动驾驶等领域。通过强化学习的安全对齐,可以有效降低模型在复杂推理过程中产生不安全或有害行为的风险,提高模型的可靠性和安全性,从而促进这些技术在实际场景中的应用。

📄 摘要(原文)

Large reasoning models (LRMs) extend large language models by generating explicit chain-of-thought (CoT) reasoning, significantly improving mathematical and logical problem solving. However, this explicit reasoning process also introduces new safety risks, as unsafe behaviors often emerge within intermediate reasoning trajectories, even when final answers appear harmless. Existing safety alignment approaches primarily rely on supervised fine-tuning (SFT) over safety-oriented long CoT datasets. While intuitive, we find that SFT produces inconsistent safety improvements, degrades reasoning ability, and generalizes poorly across model families. These limitations suggest that purely supervised approaches are insufficient for robust safety alignment in LRMs. To address this, we investigate reinforcement learning (RL) as a complementary optimization framework for LRM safety training. Unlike SFT, RL directly optimizes model policies with reward feedback, enabling more adaptive and stable alignment. Extensive experiments across multiple model families and benchmarks show that RL achieves stronger and more consistent safety gains while maintaining reasoning competence. Further analysis of reflection dynamics and token-level entropy reveals that RL suppresses unsafe exploratory reasoning while preserving reflective depth, leading to safer and more reliable reasoning processes.