AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models

📄 arXiv: 2509.24269v1 📥 PDF

作者: Zihao Zhu, Xinyu Wu, Gehan Hu, Siwei Lyu, Ke Xu, Baoyuan Wu

分类: cs.AI, cs.CL

发布日期: 2025-09-29


💡 一句话要点

AdvChain:对抗性思维链微调,提升大型推理模型安全对齐的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链 安全对齐 对抗性训练 鲁棒性

📋 核心要点

  1. 现有安全CoT微调方法存在“滚雪球效应”,推理过程中的微小偏差会被放大,导致安全问题。
  2. AdvChain通过对抗性CoT微调,使模型学习从有害推理漂移和不必要的谨慎中动态自我纠正。
  3. 实验表明,AdvChain显著提升了模型对越狱攻击的鲁棒性,并减少了过度拒绝,实现了更好的安全-效用平衡。

📝 摘要(中文)

大型推理模型(LRMs)通过思维链(CoT)推理在复杂问题解决中展现了卓越的能力。然而,CoT的多步骤特性带来了超越传统语言模型对齐的新安全挑战。我们发现当前安全CoT微调方法存在一个失效模式:滚雪球效应,即微小的推理偏差在整个思考过程中逐渐放大,导致有害的顺从或过度拒绝。这种效应源于模型被训练成模仿完美的推理脚本,而没有学会自我纠正。为了解决这个局限性,我们提出了AdvChain,一种对齐范式,通过对抗性CoT微调来教导模型动态自我纠正。我们的方法包括构建一个包含诱惑-纠正和犹豫-纠正样本的数据集,模型学习从有害的推理漂移和不必要的谨慎中恢复。广泛的实验表明,AdvChain显著增强了针对越狱攻击和CoT劫持的鲁棒性,同时大幅减少了对良性提示的过度拒绝,在不影响推理能力的情况下实现了卓越的安全-效用平衡。我们的工作为构建更鲁棒和可靠的推理模型建立了一个新的方向。

🔬 方法详解

问题定义:论文旨在解决大型推理模型在使用思维链(CoT)推理时,由于多步骤推理过程中的“滚雪球效应”而产生的安全对齐问题。现有方法训练模型模仿完美的推理脚本,缺乏自我纠正能力,导致模型在面对对抗性攻击时容易产生有害的顺从或过度拒绝,影响模型的安全性和可用性。

核心思路:AdvChain的核心思路是通过对抗性微调,使模型学习在推理过程中进行动态的自我纠正。具体来说,就是让模型接触到包含错误或偏差的推理过程,并学习如何从这些错误中恢复,从而提高模型的鲁棒性和安全性。这种方法模拟了人类在推理过程中不断修正错误的过程,使模型能够更好地应对真实世界中的复杂情况。

技术框架:AdvChain的整体框架包括以下几个主要阶段:1) 构建包含“诱惑-纠正”和“犹豫-纠正”样本的数据集。 “诱惑-纠正”样本旨在模拟模型在推理过程中受到有害信息诱导的情况,并学习如何纠正这些错误。“犹豫-纠正”样本旨在模拟模型过度谨慎的情况,并学习如何避免不必要的拒绝。2) 使用构建的数据集对模型进行对抗性微调,使模型学习自我纠正的能力。3) 评估模型在面对各种攻击时的鲁棒性和安全-效用平衡。

关键创新:AdvChain最重要的技术创新点在于提出了对抗性思维链微调的概念,并设计了相应的训练数据和训练方法。与现有方法不同,AdvChain不是简单地让模型模仿完美的推理脚本,而是让模型学习在推理过程中进行动态的自我纠正,从而提高了模型的鲁棒性和安全性。

关键设计:AdvChain的关键设计包括:1) 设计了“诱惑-纠正”和“犹豫-纠正”两种类型的训练样本,分别用于模拟模型受到有害信息诱导和过度谨慎的情况。2) 使用对抗性损失函数,鼓励模型在推理过程中进行自我纠正。3) 在训练过程中,使用不同的攻击策略来模拟真实世界中的对抗性攻击,从而提高模型的鲁棒性。

📊 实验亮点

实验结果表明,AdvChain显著提升了模型对越狱攻击的鲁棒性,在某些攻击场景下,成功率降低了超过50%。同时,AdvChain还大幅减少了模型对良性提示的过度拒绝,在不影响推理能力的情况下,实现了更好的安全-效用平衡。这些结果表明,AdvChain是一种有效的安全对齐方法。

🎯 应用场景

AdvChain技术可应用于各种需要安全可靠的大型推理模型,例如智能客服、金融风控、医疗诊断等领域。通过提高模型对对抗性攻击的鲁棒性和安全-效用平衡,可以减少模型产生有害或不准确输出的风险,提升用户信任度,并促进大型推理模型在更广泛领域的应用。

📄 摘要(原文)

Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in complex problem-solving through Chain-of-Thought (CoT) reasoning. However, the multi-step nature of CoT introduces new safety challenges that extend beyond conventional language model alignment. We identify a failure mode in current safety CoT tuning methods: the \textit{snowball effect}, where minor reasoning deviations progressively amplify throughout the thought process, leading to either harmful compliance or excessive refusal. This effect stems from models being trained to imitate perfect reasoning scripts without learning to self-correct. To address this limitation, we propose AdvChain, an alignment paradigm that teaches models dynamic self-correction through adversarial CoT tuning. Our method involves constructing a dataset containing Temptation-Correction and Hesitation-Correction samples, where models learn to recover from harmful reasoning drifts and unnecessary cautions. Extensive experiments show that AdvChain significantly enhances robustness against jailbreak attacks and CoT hijacking while substantially reducing over-refusal on benign prompts, achieving a superior safety-utility balance without compromising reasoning capabilities. Our work establishes a new direction for building more robust and reliable reasoning models.