UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases

📄 arXiv: 2507.21652v2 📥 PDF

作者: Raj Vardhan Tomar, Preslav Nakov, Yuxia Wang

分类: cs.CL

发布日期: 2025-07-29 (更新: 2025-11-10)

🔗 代码/项目: GITHUB


💡 一句话要点

UnsafeChain:通过难例提升推理模型安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性 思维链 难例挖掘 安全对齐

📋 核心要点

  1. 现有安全对齐方法忽略了大型推理模型在处理难例提示时产生有害输出的问题。
  2. UnsafeChain通过构建包含难例提示的数据集,并显式纠正不安全输出来提升模型安全性。
  3. 实验表明,使用UnsafeChain微调的模型在安全性和通用推理能力上均优于现有方法。

📝 摘要(中文)

随着大型推理模型(LRMs)能力的增强,思维链(CoT)推理引入了新的安全挑战。现有的基于SFT的安全对齐研究主要集中于过滤具有安全、高质量响应的提示,而忽略了总是引发有害输出的难例提示。为了填补这一空白,我们引入了UnsafeChain,这是一个由来自不同来源的难例提示构建的安全对齐数据集,其中不安全的补全被识别并显式地纠正为安全响应。通过让模型暴露于不安全行为并指导其纠正,UnsafeChain在保持一般推理能力的同时增强了安全性。我们使用UnsafeChain对三个LRM进行了微调,并将它们与最近的SafeChain和STAR-1在六个分布外和五个分布内基准上进行了比较。UnsafeChain始终优于先前的数据集,即使是1K的子集也能匹配或超过基线性能,证明了基于纠正的监督的有效性和泛化性。我们发布了我们的数据集和代码。

🔬 方法详解

问题定义:论文旨在解决大型推理模型在处理特定类型的“难例”提示时,容易产生不安全或有害输出的问题。现有基于SFT的安全对齐方法主要关注过滤安全提示,而忽略了那些无论如何都会导致模型产生不良行为的提示,导致模型在面对这些情况时缺乏有效的应对机制。

核心思路:核心思路是构建一个包含大量“难例”提示的数据集,并为每个不安全的模型输出提供对应的安全纠正。通过让模型学习识别和纠正这些不安全行为,从而提高其整体安全性。这种方法类似于“错误驱动学习”,即通过暴露模型于错误并提供纠正来提升其性能。

技术框架:UnsafeChain的构建流程主要包括以下几个阶段:1) 收集各种来源的“难例”提示,这些提示已知会导致模型产生不安全输出。2) 对于每个提示,生成模型的不安全输出。3) 人工对这些不安全输出进行纠正,生成对应的安全响应。4) 使用包含“难例”提示和安全响应的数据集对大型推理模型进行微调。

关键创新:关键创新在于关注并显式解决大型推理模型在处理“难例”提示时的安全性问题。与以往主要关注过滤安全提示的方法不同,UnsafeChain通过暴露模型于不安全行为并提供纠正来提升其安全性。这种基于纠正的监督方法更具针对性,能够更有效地提高模型在实际应用中的安全性。

关键设计:UnsafeChain数据集的关键设计在于“难例”提示的选择和安全响应的生成。为了保证数据集的多样性和有效性,论文从多个来源收集“难例”提示,并由专业人员对不安全输出进行纠正,确保安全响应的质量。微调过程中,可以使用标准的监督学习方法,例如交叉熵损失函数,来训练模型学习从“难例”提示到安全响应的映射。

📊 实验亮点

实验结果表明,使用UnsafeChain微调的模型在多个安全基准测试中均优于现有的安全对齐方法,例如SafeChain和STAR-1。即使只使用UnsafeChain数据集的一个1K子集进行微调,也能达到或超过基线模型的性能,证明了该方法的有效性和泛化能力。这表明通过关注和解决“难例”问题,可以显著提升大型语言模型的安全性。

🎯 应用场景

UnsafeChain的研究成果可应用于各种需要安全可靠的大型语言模型应用场景,例如智能客服、内容生成、教育辅导等。通过提高模型在处理复杂或潜在有害查询时的安全性,可以降低模型产生不良输出的风险,提升用户体验,并减少潜在的法律和伦理问题。

📄 摘要(原文)

As large reasoning models (LRMs) grow more capable, chain-of-thought (CoT) reasoning introduces new safety challenges. Existing SFT-based safety alignment studies dominantly focused on filtering prompts with safe, high-quality responses, while overlooking hard prompts that always elicit harmful outputs. To fill this gap, we introduce UnsafeChain, a safety alignment dataset constructed from hard prompts with diverse sources, where unsafe completions are identified and explicitly corrected into safe responses. By exposing models to unsafe behaviors and guiding their correction, UnsafeChain enhances safety while preserving general reasoning ability. We fine-tune three LRMs on UnsafeChain and compare them against recent SafeChain and STAR-1 across six out-of-distribution and five in-distribution benchmarks. UnsafeChain consistently outperforms prior datasets, with even a 1K subset matching or surpassing baseline performance, demonstrating the effectiveness and generalizability of correction-based supervision. We release our dataset and code at https://github.com/mbzuai-nlp/UnsafeChain