SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

📄 arXiv: 2603.15397v1 📥 PDF

作者: Yu Pan, Wenlong Yu, Tiejun Wu, Xiaohu Ye, Qiannan Si, Guangquan Xu, Bin Wu

分类: cs.CR, cs.AI

发布日期: 2026-03-16


💡 一句话要点

提出SFCoT框架,通过主动安全评估与校准增强LLM推理过程的安全性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 Chain-of-Thought 对抗攻击防御 安全评估 动态校准

📋 核心要点

  1. 现有LLM防御机制主要依赖于最终输出过滤,忽略了中间推理步骤的安全风险,易受对抗攻击。
  2. SFCoT框架通过实时评估和校准推理步骤,结合安全评分和一致性验证,主动防御潜在的安全威胁。
  3. 实验表明,SFCoT能显著降低LLM的攻击成功率,同时保持其通用性能,提升LLM的安全性。

📝 摘要(中文)

大型语言模型(LLM)在复杂推理任务中表现出卓越的能力。然而,它们仍然极易受到破坏其安全对齐的越狱攻击。现有的防御机制通常依赖于仅应用于最终输出的事后过滤,使得中间推理步骤未受监控且容易受到对抗性操纵。为了解决这一差距,本文提出了一种SaFer Chain-of-Thought(SFCoT)框架,该框架主动评估和校准潜在的不安全推理步骤。SFCoT结合了一个三层安全评分系统和一个多角度一致性验证机制,旨在检测整个推理过程中的潜在风险。动态干预模块随后执行有针对性的校准,以将推理轨迹重定向到安全结果。实验结果表明,SFCoT将攻击成功率从58.97%降低到12.31%,证明它是一种有效且高效的LLM安全增强方法,且不会显着降低一般性能。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在推理过程中容易受到对抗攻击,导致输出不安全或有害内容的问题。现有的防御方法主要集中在最终输出的过滤,忽略了中间推理步骤的潜在风险,使得攻击者可以通过操纵中间步骤来绕过防御。

核心思路:SFCoT的核心思路是在LLM的Chain-of-Thought推理过程中,主动地对每个推理步骤进行安全评估和校准。通过实时监控推理过程,及时发现并纠正潜在的不安全因素,从而提高LLM的整体安全性。

技术框架:SFCoT框架包含三个主要模块:1) 三层安全评分系统:对每个推理步骤进行多维度安全评估,包括内容安全性、逻辑一致性和上下文相关性。2) 多角度一致性验证机制:从不同角度验证推理步骤的一致性,检测潜在的矛盾或异常。3) 动态干预模块:根据安全评分和一致性验证结果,对不安全的推理步骤进行校准,引导推理过程朝着安全的方向发展。

关键创新:SFCoT的关键创新在于其主动式的安全评估和校准机制。与传统的被动防御方法不同,SFCoT能够实时监控推理过程,及时发现并纠正潜在的安全风险。此外,SFCoT还结合了多角度一致性验证,提高了安全评估的准确性和可靠性。

关键设计:三层安全评分系统可能包括:1) 基于规则的安全评分,检查是否存在违禁词或敏感信息;2) 基于模型的安全评分,利用预训练的安全模型评估内容的安全性;3) 基于上下文的安全评分,考虑上下文信息,评估内容是否可能导致不良后果。动态干预模块可能采用重写、过滤或拒绝等策略,对不安全的推理步骤进行校准。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SFCoT框架能够有效地降低LLM的攻击成功率,从58.97%降低到12.31%。同时,SFCoT对LLM的通用性能影响较小,能够在保证安全性的前提下,维持LLM的推理能力。这些结果表明,SFCoT是一种有效且高效的LLM安全增强方法。

🎯 应用场景

SFCoT框架可应用于各种需要安全保障的LLM应用场景,如智能客服、内容生成、教育辅导等。通过提高LLM的安全性,可以减少有害信息的传播,保护用户免受潜在的风险,并促进LLM在更广泛领域的应用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks. However, they remain highly susceptible to jailbreak attacks that undermine their safety alignment. Existing defense mechanisms typically rely on post hoc filtering applied only to the final output, leaving intermediate reasoning steps unmonitored and vulnerable to adversarial manipulation. To address this gap, this paper proposes a SaFer Chain-of-Thought (SFCoT) framework, which proactively evaluates and calibrates potentially unsafe reasoning steps in real time. SFCoT incorporates a three-tier safety scoring system alongside a multi-perspective consistency verification mechanism, designed to detect potential risks throughout the reasoning process. A dynamic intervention module subsequently performs targeted calibration to redirect reasoning trajectories toward safe outcomes. Experimental results demonstrate that SFCoT reduces the attack success rate from $58.97\%$ to $12.31\%$, demonstrating it as an effective and efficient LLM safety enhancement method without a significant decline in general performance.