Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models

作者: Xunguang Wang, Yuguang Zhou, Qingyue Wang, Zongjie Li, Ruixuan Huang, Zhenlan Ji, Pingchuan Ma, Shuai Wang

分类: cs.AI, cs.CR

发布日期: 2026-03-26

💡 一句话要点

提出推理安全监控器，实时检测大语言模型推理过程中的漏洞

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理安全 实时监控 思维链 对抗攻击

📋 核心要点

现有大语言模型安全研究主要关注内容安全，忽略了推理过程本身的安全性，存在逻辑不一致、效率低下和易受攻击等问题。
论文提出推理安全监控器，通过外部LLM实时检查推理步骤，利用分类法嵌入的提示检测不安全行为并发出中断信号。
实验表明，该监控器在步骤级定位和错误类型分类方面表现出色，显著优于现有方法，验证了推理级别监控的必要性和可行性。

📝 摘要（中文）

大型语言模型（LLM）越来越多地依赖显式的思维链（CoT）推理来解决复杂的任务，但推理过程本身的安全性在很大程度上仍未得到解决。现有的LLM安全工作主要集中在内容安全上——检测有害、有偏见或在事实上不正确的输出——并将推理链视为一个不透明的中间产物。本文将推理安全定义为一个正交且同样重要的安全维度：要求模型的推理轨迹在逻辑上是一致的、计算上是高效的，并且能够抵抗对抗性操纵。本文做出了三项贡献。首先，正式定义了推理安全，并引入了一个包含九个类别的不安全推理行为的分类法，涵盖了输入解析错误、推理执行错误和过程管理错误。其次，进行了一项大规模的流行性研究，注释了来自自然推理基准和四种对抗性攻击方法（推理劫持和拒绝服务）的4111个推理链，证实了所有九种错误类型在实践中都会发生，并且每种攻击都会诱导出一种可解释的机制签名。第三，提出了一个推理安全监控器：一个基于外部LLM的组件，与目标模型并行运行，通过嵌入分类法的提示实时检查每个推理步骤，并在检测到不安全行为时发出中断信号。在450链静态基准上的评估表明，本文的监控器实现了高达84.88%的步骤级定位准确率和85.37%的错误类型分类准确率，大大优于幻觉检测器和过程奖励模型基线。这些结果表明，推理级别的监控既是必要的，也是实际可行的，并将推理安全确立为大型推理模型安全部署的一个基本问题。

🔬 方法详解

问题定义：现有的大语言模型安全研究主要集中在内容安全，即检测模型输出的有害、偏见或不准确的信息。然而，这些研究忽略了推理过程本身的安全性，例如推理链的逻辑一致性、计算效率以及对对抗性攻击的抵抗能力。现有方法将推理链视为黑盒，无法有效识别和解决推理过程中的潜在漏洞。

核心思路：论文的核心思路是引入一个外部的、基于LLM的推理安全监控器，与目标模型并行运行，实时检查目标模型的推理步骤。该监控器通过一个包含九个类别的不安全推理行为分类法的提示，来识别推理过程中的错误。当检测到不安全行为时，监控器会发出中断信号，从而防止不安全推理的进一步发展。

技术框架：推理安全监控器的整体框架包括以下几个主要模块：1) 目标模型：执行推理任务的大语言模型；2) 推理链提取器：从目标模型的输出中提取推理步骤；3) 推理安全监控器：基于LLM的外部组件，用于检查推理步骤的安全性；4) 分类法嵌入提示：包含九个类别的不安全推理行为的提示，用于指导监控器进行错误检测；5) 中断信号：当检测到不安全行为时，监控器发出的信号，用于中断目标模型的推理过程。

关键创新：论文最重要的技术创新点在于提出了推理安全的概念，并将其定义为一个独立于内容安全的安全维度。此外，论文还提出了一个基于外部LLM的推理安全监控器，该监控器能够实时检查推理步骤的安全性，并能够有效地检测和分类各种不安全推理行为。

关键设计：推理安全监控器的关键设计包括：1) 使用LLM作为监控器的核心，利用LLM的推理能力来检查推理步骤的安全性；2) 设计了一个包含九个类别的不安全推理行为的分类法，用于指导监控器进行错误检测；3) 使用分类法嵌入提示，将分类法的信息融入到监控器的提示中，从而提高监控器的检测准确率；4) 采用实时监控的方式，及时发现和阻止不安全推理行为的发生。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该推理安全监控器在450链静态基准上实现了高达84.88%的步骤级定位准确率和85.37%的错误类型分类准确率，显著优于现有的幻觉检测器和过程奖励模型基线。这些结果验证了推理级别监控的有效性和必要性，为大语言模型的安全部署提供了新的思路。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的大语言模型推理的场景，例如金融风险评估、医疗诊断、法律咨询等。通过实时监控推理过程，可以有效防止模型产生错误或有害的结论，提高模型的可靠性和安全性，从而促进大语言模型在关键领域的应用。

📄 摘要（原文）

Large language models (LLMs) increasingly rely on explicit chain-of-thought (CoT) reasoning to solve complex tasks, yet the safety of the reasoning process itself remains largely unaddressed. Existing work on LLM safety focuses on content safety--detecting harmful, biased, or factually incorrect outputs -- and treats the reasoning chain as an opaque intermediate artifact. We identify reasoning safety as an orthogonal and equally critical security dimension: the requirement that a model's reasoning trajectory be logically consistent, computationally efficient, and resistant to adversarial manipulation. We make three contributions. First, we formally define reasoning safety and introduce a nine-category taxonomy of unsafe reasoning behaviors, covering input parsing errors, reasoning execution errors, and process management errors. Second, we conduct a large-scale prevalence study annotating 4111 reasoning chains from both natural reasoning benchmarks and four adversarial attack methods (reasoning hijacking and denial-of-service), confirming that all nine error types occur in practice and that each attack induces a mechanistically interpretable signature. Third, we propose a Reasoning Safety Monitor: an external LLM-based component that runs in parallel with the target model, inspects each reasoning step in real time via a taxonomy-embedded prompt, and dispatches an interrupt signal upon detecting unsafe behavior. Evaluation on a 450-chain static benchmark shows that our monitor achieves up to 84.88\% step-level localization accuracy and 85.37\% error-type classification accuracy, outperforming hallucination detectors and process reward model baselines by substantial margins. These results demonstrate that reasoning-level monitoring is both necessary and practically achievable, and establish reasoning safety as a foundational concern for the secure deployment of large reasoning models.

Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理