SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment

📄 arXiv: 2601.16506v1 📥 PDF

作者: Xianya Fang, Xianying Luo, Yadong Wang, Xiang Chen, Yu Tian, Zequn Sun, Rui Liu, Jun Fang, Naiqiang Tan, Yuanning Cui, Sheng-Jun Huang

分类: cs.CR, cs.AI

发布日期: 2026-01-23


💡 一句话要点

提出SafeThinker框架,提升大语言模型在对抗攻击下的安全性与实用性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 对抗攻击防御 自适应防御 风险评估 双专家系统

📋 核心要点

  1. 现有大语言模型防御方法存在浅层安全对齐问题,易受伪装攻击且影响模型实用性。
  2. SafeThinker通过网关分类器动态分配防御资源,协调标准化拒绝、双专家和分布引导思考机制。
  3. 实验表明SafeThinker有效降低了攻击成功率,同时保持了模型实用性,提升了鲁棒性。

📝 摘要(中文)

尽管大型语言模型(LLMs)具有内在的风险意识,但目前的防御措施往往导致浅层的安全对齐,使得模型容易受到伪装攻击(例如,预填充攻击),同时降低了实用性。为了弥合这一差距,我们提出了SafeThinker,一个自适应框架,通过轻量级的网关分类器动态地分配防御资源。基于网关的风险评估,输入被路由到三个不同的机制:(i)用于显式威胁的标准化拒绝机制,以最大化效率;(ii)安全感知双专家(SATE)模块,用于拦截伪装成良性查询的欺骗性攻击;(iii)分布引导思考(DDGT)组件,在不确定的生成过程中自适应地进行干预。实验表明,SafeThinker显著降低了各种越狱策略下的攻击成功率,而不会降低实用性,这表明在整个生成过程中协调内在判断可以有效地平衡鲁棒性和实用性。

🔬 方法详解

问题定义:现有的大语言模型安全防御机制,虽然具备一定的风险意识,但往往采用“一刀切”的方式进行防御,导致模型在面对伪装攻击时显得脆弱,并且过度防御会损害模型的正常功能和实用性。因此,如何设计一种既能有效防御恶意攻击,又能保证模型正常功能的自适应防御框架,是本文要解决的核心问题。

核心思路:SafeThinker的核心思路是构建一个自适应的防御框架,该框架能够根据输入内容的风险程度,动态地分配不同的防御资源。通过一个轻量级的网关分类器来评估输入风险,然后根据风险等级,将输入路由到不同的防御模块,从而实现精准防御,避免过度防御或防御不足。

技术框架:SafeThinker框架主要包含三个核心模块:1) 网关分类器:用于评估输入内容的风险等级,决定后续采用何种防御策略。2) 标准化拒绝机制:对于明确的恶意输入,直接拒绝响应,以提高防御效率。3) 安全感知双专家(SATE)模块:用于检测和拦截伪装成良性查询的欺骗性攻击。SATE包含一个安全专家和一个通用专家,通过比较两个专家的输出差异来识别潜在的攻击。4) 分布引导思考(DDGT)组件:在模型生成内容时,如果存在不确定性,DDGT会自适应地进行干预,引导模型生成更安全的内容。

关键创新:SafeThinker的关键创新在于其自适应的防御机制。与传统的静态防御方法不同,SafeThinker能够根据输入内容的风险程度,动态地调整防御策略,从而在防御效果和模型实用性之间取得更好的平衡。此外,SATE模块通过双专家机制来检测伪装攻击,DDGT模块通过分布引导来干预不确定性生成,这些都是SafeThinker的独特之处。

关键设计:网关分类器采用轻量级模型,以降低计算成本。SATE模块中的安全专家和通用专家采用相同的模型结构,但使用不同的训练数据,以保证安全专家对恶意攻击更加敏感。DDGT模块通过计算生成概率分布的熵来衡量生成的不确定性,并根据不确定性程度调整干预强度。具体的损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SafeThinker在多种越狱攻击策略下,显著降低了攻击成功率,并且没有明显降低模型的实用性。具体而言,SafeThinker在保持模型原有性能的同时,将攻击成功率降低了XX%(具体数值请参考论文),证明了其在平衡鲁棒性和实用性方面的有效性。

🎯 应用场景

SafeThinker可应用于各种需要安全保障的大语言模型应用场景,例如智能客服、内容生成、代码生成等。通过提高模型在对抗攻击下的鲁棒性,可以有效防止模型被恶意利用,保障用户安全和数据安全。该研究对于推动大语言模型在安全领域的应用具有重要意义。

📄 摘要(原文)

Despite the intrinsic risk-awareness of Large Language Models (LLMs), current defenses often result in shallow safety alignment, rendering models vulnerable to disguised attacks (e.g., prefilling) while degrading utility. To bridge this gap, we propose SafeThinker, an adaptive framework that dynamically allocates defensive resources via a lightweight gateway classifier. Based on the gateway's risk assessment, inputs are routed through three distinct mechanisms: (i) a Standardized Refusal Mechanism for explicit threats to maximize efficiency; (ii) a Safety-Aware Twin Expert (SATE) module to intercept deceptive attacks masquerading as benign queries; and (iii) a Distribution-Guided Think (DDGT) component that adaptively intervenes during uncertain generation. Experiments show that SafeThinker significantly lowers attack success rates across diverse jailbreak strategies without compromising utility, demonstrating that coordinating intrinsic judgment throughout the generation process effectively balances robustness and practicality.