AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models
作者: Zihao Zhu, Xinyu Wu, Gehan Hu, Siwei Lyu, Ke Xu, Baoyuan Wu
分类: cs.AI, cs.CL
发布日期: 2025-09-29
💡 一句话要点
AdvChain:对抗式思维链调优,提升大型推理模型安全对齐的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型推理模型 思维链 安全对齐 对抗训练 鲁棒性
📋 核心要点
- 现有安全思维链调优方法存在“滚雪球效应”,推理过程中的微小偏差会被放大,导致安全问题。
- AdvChain通过对抗式思维链调优,使模型学习从有害推理漂移和过度拒绝中动态自我纠正。
- 实验表明,AdvChain显著提升了模型对越狱攻击的鲁棒性,并减少了对良性提示的过度拒绝。
📝 摘要(中文)
大型推理模型(LRMs)通过思维链(CoT)推理在复杂问题解决中展现了卓越能力。然而,CoT的多步骤特性引入了超越传统语言模型对齐的新安全挑战。我们发现当前安全CoT调优方法存在一种失效模式:滚雪球效应,即微小的推理偏差在整个思考过程中逐渐放大,导致有害的顺从或过度拒绝。这种效应源于模型被训练成模仿完美的推理脚本,而没有学会自我纠正。为了解决这一局限性,我们提出AdvChain,一种通过对抗式CoT调优来教导模型动态自我纠正的对齐范式。我们的方法包括构建包含诱惑-纠正和犹豫-纠正样本的数据集,模型学习从有害的推理漂移和不必要的谨慎中恢复。大量实验表明,AdvChain显著增强了针对越狱攻击和CoT劫持的鲁棒性,同时大幅减少了对良性提示的过度拒绝,在不影响推理能力的情况下实现了卓越的安全-效用平衡。我们的工作为构建更鲁棒和可靠的推理模型开辟了新方向。
🔬 方法详解
问题定义:论文旨在解决大型推理模型(LRMs)在使用思维链(CoT)推理时,由于推理过程中的“滚雪球效应”导致的安全性问题。现有方法训练模型模仿完美的推理脚本,缺乏自我纠正能力,容易受到对抗攻击,或对无害问题过度拒绝。
核心思路:AdvChain的核心思路是通过对抗式训练,让模型学习在推理过程中进行动态自我纠正。具体来说,就是构建包含“诱惑-纠正”和“犹豫-纠正”样本的数据集,让模型学习从错误的推理路径中恢复,并避免不必要的拒绝。
技术框架:AdvChain的整体框架包括以下几个主要阶段:1) 构建包含“诱惑-纠正”和“犹豫-纠正”样本的对抗数据集。2) 使用该数据集对大型推理模型进行微调,使其学习自我纠正的能力。3) 通过实验评估模型在对抗攻击和良性提示下的表现。
关键创新:AdvChain的关键创新在于提出了对抗式思维链调优的概念,并设计了相应的训练数据构建方法。与以往的模仿学习方法不同,AdvChain强调模型在推理过程中动态调整和纠正错误的能力,从而提高了模型的鲁棒性和安全性。
关键设计:AdvChain的关键设计包括:1) “诱惑-纠正”样本的设计,旨在模拟模型在推理过程中受到恶意诱导的情况,并训练模型从错误中恢复。2) “犹豫-纠正”样本的设计,旨在解决模型对良性提示过度拒绝的问题,并鼓励模型在不确定情况下进行推理。3) 对抗数据集的构建方法,需要仔细设计诱导和纠正策略,以确保训练数据的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AdvChain显著提升了模型对越狱攻击的抵抗能力,同时大幅减少了对良性提示的过度拒绝。具体而言,AdvChain在安全性方面优于现有方法,并在不牺牲推理能力的前提下,实现了更好的安全-效用平衡。这些结果验证了AdvChain的有效性和优越性。
🎯 应用场景
AdvChain技术可应用于各种需要安全可靠的大型推理模型,例如智能客服、自动驾驶、金融风控等领域。通过提高模型对对抗攻击的鲁棒性和减少过度拒绝,可以提升用户体验,降低安全风险,并促进人工智能技术的更广泛应用。
📄 摘要(原文)
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in complex problem-solving through Chain-of-Thought (CoT) reasoning. However, the multi-step nature of CoT introduces new safety challenges that extend beyond conventional language model alignment. We identify a failure mode in current safety CoT tuning methods: the \textit{snowball effect}, where minor reasoning deviations progressively amplify throughout the thought process, leading to either harmful compliance or excessive refusal. This effect stems from models being trained to imitate perfect reasoning scripts without learning to self-correct. To address this limitation, we propose AdvChain, an alignment paradigm that teaches models dynamic self-correction through adversarial CoT tuning. Our method involves constructing a dataset containing Temptation-Correction and Hesitation-Correction samples, where models learn to recover from harmful reasoning drifts and unnecessary cautions. Extensive experiments show that AdvChain significantly enhances robustness against jailbreak attacks and CoT hijacking while substantially reducing over-refusal on benign prompts, achieving a superior safety-utility balance without compromising reasoning capabilities. Our work establishes a new direction for building more robust and reliable reasoning models.