QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems

作者: Yiliu Yang, Yilei Jiang, Qunzhong Wang, Yingshui Tan, Xiaoyong Zhu, Sherman S. M. Chow, Bo Zheng, Xiangyu Yue

分类: cs.AI, cs.CL

发布日期: 2025-12-18

备注: Preprint

🔗 代码/项目: GITHUB

💡 一句话要点

QuadSentinel：多智能体系统中基于时序逻辑的安全可验证控制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 安全控制 大型语言模型 时序逻辑 机器可验证 智能体安全 运行时监控

📋 核心要点

基于LLM的智能体在复杂任务中存在安全风险，而自然语言策略难以转化为机器可验证规则，运行时强制执行不可靠。
QuadSentinel将安全策略表示为时序逻辑，编译为机器可检查规则，并通过四智能体守卫系统在线强制执行。
实验表明，QuadSentinel提高了护栏准确率和规则召回率，减少误报，并优于单智能体基线。

📝 摘要（中文）

基于大型语言模型（LLM）的智能体在解决复杂任务时，会利用工具、多步计划和智能体间消息，从而产生安全风险。然而，部署者编写的自然语言策略具有模糊性和上下文依赖性，难以映射到机器可检查的规则，并且运行时强制执行也不可靠。本文提出 extsc{QuadSentinel}，一种四智能体守卫（状态跟踪器、策略验证器、威胁观察器和裁判）系统，它将安全策略表示为时序逻辑，并将其编译为基于可观察状态谓词的机器可检查规则，并在运行时强制执行。裁判逻辑加上高效的top-$k$谓词更新器，通过优先检查和分层解决冲突来降低成本。在ST-WebAgentBench和AgentHarm上的实验表明， extsc{QuadSentinel}提高了护栏的准确性和规则召回率，同时减少了误报。与ShieldAgent等单智能体基线相比，它产生了更好的整体安全控制。无需修改核心智能体，即可通过保持策略分离和机器可检查性来采用此模式进行近期部署。代码将在https://github.com/yyiliu/QuadSentinel公开。

🔬 方法详解

问题定义：论文旨在解决多智能体系统中，基于大型语言模型的智能体在执行复杂任务时产生的安全风险问题。现有方法，如直接使用自然语言策略进行安全控制，存在模糊性、上下文依赖性以及难以进行机器验证的痛点，导致运行时强制执行的可靠性不足。

核心思路：论文的核心思路是将安全策略形式化为时序逻辑（sequents），并将其编译成机器可检查的规则。通过引入一个四智能体守卫系统，在线监控和强制执行这些规则，从而提高安全控制的准确性和可靠性。这种方法将安全策略与核心智能体分离，便于维护和更新。

技术框架：QuadSentinel 包含四个核心智能体：状态跟踪器（State Tracker）、策略验证器（Policy Verifier）、威胁观察器（Threat Watcher）和裁判（Referee）。状态跟踪器负责监控环境和智能体的状态；策略验证器将状态信息与预定义的安全策略进行比对；威胁观察器检测潜在的威胁行为；裁判根据前三个智能体的输出，做出最终的安全决策并采取相应的行动。整个系统通过一个高效的 top-$k$ 谓词更新器来优化性能，优先检查最重要的规则，并分层解决冲突。

关键创新：论文的关键创新在于将安全策略表示为时序逻辑，并将其编译为机器可检查的规则。这种形式化的表示方法克服了自然语言策略的模糊性和不确定性，使得安全策略能够被机器精确地理解和执行。此外，四智能体守卫系统的设计也提高了安全控制的鲁棒性和可靠性。

关键设计：裁判逻辑是 QuadSentinel 的关键设计之一，它负责整合来自其他三个智能体的输出，并做出最终的安全决策。为了降低计算成本，系统采用了一个高效的 top-$k$ 谓词更新器，优先检查最重要的规则。此外，系统还采用了分层冲突解决机制，以确保安全决策的一致性和有效性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

QuadSentinel 在 ST-WebAgentBench 和 AgentHarm 两个基准测试中进行了评估。实验结果表明，QuadSentinel 提高了护栏的准确性和规则召回率，同时减少了误报。与 ShieldAgent 等单智能体基线相比，QuadSentinel 取得了更好的整体安全控制效果。具体的性能提升数据在摘要中未给出，属于未知信息。

🎯 应用场景

QuadSentinel 可应用于各种多智能体系统，例如自动驾驶、机器人协作、智能家居等。通过提供可验证的安全控制，它可以降低智能体系统在复杂环境中运行的风险，提高系统的可靠性和安全性。该研究对于推动安全可靠的人工智能应用具有重要意义。

📄 摘要（原文）

Safety risks arise as large language model-based agents solve complex tasks with tools, multi-step plans, and inter-agent messages. However, deployer-written policies in natural language are ambiguous and context dependent, so they map poorly to machine-checkable rules, and runtime enforcement is unreliable. Expressing safety policies as sequents, we propose \textsc{QuadSentinel}, a four-agent guard (state tracker, policy verifier, threat watcher, and referee) that compiles these policies into machine-checkable rules built from predicates over observable state and enforces them online. Referee logic plus an efficient top-$k$ predicate updater keeps costs low by prioritizing checks and resolving conflicts hierarchically. Measured on ST-WebAgentBench (ICML CUA~'25) and AgentHarm (ICLR~'25), \textsc{QuadSentinel} improves guardrail accuracy and rule recall while reducing false positives. Against single-agent baselines such as ShieldAgent (ICML~'25), it yields better overall safety control. Near-term deployments can adopt this pattern without modifying core agents by keeping policies separate and machine-checkable. Our code will be made publicly available at https://github.com/yyiliu/QuadSentinel.

QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册