Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models
作者: Xunguang Wang, Yuguang Zhou, Qingyue Wang, Zongjie Li, Ruixuan Huang, Zhenlan Ji, Pingchuan Ma, Shuai Wang
分类: cs.AI, cs.CR
发布日期: 2026-03-26
💡 一句话要点
提出推理安全监控器,实时检测大语言模型推理过程中的漏洞
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理安全 实时监控 思维链 对抗攻击
📋 核心要点
- 现有大语言模型安全研究主要关注内容安全,忽略了推理过程本身的安全性,存在逻辑不一致、效率低下和易受攻击等问题。
- 论文提出推理安全监控器,通过外部LLM实时检查推理步骤,利用分类法嵌入的提示检测不安全行为并发出中断信号。
- 实验表明,该监控器在步骤级定位和错误类型分类方面表现出色,显著优于现有方法,验证了推理级别监控的必要性和可行性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地依赖显式的思维链(CoT)推理来解决复杂的任务,但推理过程本身的安全性在很大程度上仍未得到解决。现有的LLM安全工作主要集中在内容安全上——检测有害、有偏见或在事实上不正确的输出——并将推理链视为一个不透明的中间产物。本文将推理安全定义为一个正交且同样重要的安全维度:要求模型的推理轨迹在逻辑上是一致的、计算上是高效的,并且能够抵抗对抗性操纵。本文做出了三项贡献。首先,正式定义了推理安全,并引入了一个包含九个类别的不安全推理行为的分类法,涵盖了输入解析错误、推理执行错误和过程管理错误。其次,进行了一项大规模的流行性研究,注释了来自自然推理基准和四种对抗性攻击方法(推理劫持和拒绝服务)的4111个推理链,证实了所有九种错误类型在实践中都会发生,并且每种攻击都会诱导出一种可解释的机制签名。第三,提出了一个推理安全监控器:一个基于外部LLM的组件,与目标模型并行运行,通过嵌入分类法的提示实时检查每个推理步骤,并在检测到不安全行为时发出中断信号。在450链静态基准上的评估表明,本文的监控器实现了高达84.88%的步骤级定位准确率和85.37%的错误类型分类准确率,大大优于幻觉检测器和过程奖励模型基线。这些结果表明,推理级别的监控既是必要的,也是实际可行的,并将推理安全确立为大型推理模型安全部署的一个基本问题。
🔬 方法详解
问题定义:现有的大语言模型安全研究主要集中在内容安全,即检测模型输出的有害、偏见或不准确的信息。然而,这些研究忽略了推理过程本身的安全性,例如推理链的逻辑一致性、计算效率以及对对抗性攻击的抵抗能力。现有方法将推理链视为黑盒,无法有效识别和解决推理过程中的潜在漏洞。
核心思路:论文的核心思路是引入一个外部的、基于LLM的推理安全监控器,与目标模型并行运行,实时检查目标模型的推理步骤。该监控器通过一个包含九个类别的不安全推理行为分类法的提示,来识别推理过程中的错误。当检测到不安全行为时,监控器会发出中断信号,从而防止不安全推理的进一步发展。
技术框架:推理安全监控器的整体框架包括以下几个主要模块:1) 目标模型:执行推理任务的大语言模型;2) 推理链提取器:从目标模型的输出中提取推理步骤;3) 推理安全监控器:基于LLM的外部组件,用于检查推理步骤的安全性;4) 分类法嵌入提示:包含九个类别的不安全推理行为的提示,用于指导监控器进行错误检测;5) 中断信号:当检测到不安全行为时,监控器发出的信号,用于中断目标模型的推理过程。
关键创新:论文最重要的技术创新点在于提出了推理安全的概念,并将其定义为一个独立于内容安全的安全维度。此外,论文还提出了一个基于外部LLM的推理安全监控器,该监控器能够实时检查推理步骤的安全性,并能够有效地检测和分类各种不安全推理行为。
关键设计:推理安全监控器的关键设计包括:1) 使用LLM作为监控器的核心,利用LLM的推理能力来检查推理步骤的安全性;2) 设计了一个包含九个类别的不安全推理行为的分类法,用于指导监控器进行错误检测;3) 使用分类法嵌入提示,将分类法的信息融入到监控器的提示中,从而提高监控器的检测准确率;4) 采用实时监控的方式,及时发现和阻止不安全推理行为的发生。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该推理安全监控器在450链静态基准上实现了高达84.88%的步骤级定位准确率和85.37%的错误类型分类准确率,显著优于现有的幻觉检测器和过程奖励模型基线。这些结果验证了推理级别监控的有效性和必要性,为大语言模型的安全部署提供了新的思路。
🎯 应用场景
该研究成果可应用于各种需要安全可靠的大语言模型推理的场景,例如金融风险评估、医疗诊断、法律咨询等。通过实时监控推理过程,可以有效防止模型产生错误或有害的结论,提高模型的可靠性和安全性,从而促进大语言模型在关键领域的应用。
📄 摘要(原文)
Large language models (LLMs) increasingly rely on explicit chain-of-thought (CoT) reasoning to solve complex tasks, yet the safety of the reasoning process itself remains largely unaddressed. Existing work on LLM safety focuses on content safety--detecting harmful, biased, or factually incorrect outputs -- and treats the reasoning chain as an opaque intermediate artifact. We identify reasoning safety as an orthogonal and equally critical security dimension: the requirement that a model's reasoning trajectory be logically consistent, computationally efficient, and resistant to adversarial manipulation. We make three contributions. First, we formally define reasoning safety and introduce a nine-category taxonomy of unsafe reasoning behaviors, covering input parsing errors, reasoning execution errors, and process management errors. Second, we conduct a large-scale prevalence study annotating 4111 reasoning chains from both natural reasoning benchmarks and four adversarial attack methods (reasoning hijacking and denial-of-service), confirming that all nine error types occur in practice and that each attack induces a mechanistically interpretable signature. Third, we propose a Reasoning Safety Monitor: an external LLM-based component that runs in parallel with the target model, inspects each reasoning step in real time via a taxonomy-embedded prompt, and dispatches an interrupt signal upon detecting unsafe behavior. Evaluation on a 450-chain static benchmark shows that our monitor achieves up to 84.88\% step-level localization accuracy and 85.37\% error-type classification accuracy, outperforming hallucination detectors and process reward model baselines by substantial margins. These results demonstrate that reasoning-level monitoring is both necessary and practically achievable, and establish reasoning safety as a foundational concern for the secure deployment of large reasoning models.