QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems

📄 arXiv: 2512.16279v1 📥 PDF

作者: Yiliu Yang, Yilei Jiang, Qunzhong Wang, Yingshui Tan, Xiaoyong Zhu, Sherman S. M. Chow, Bo Zheng, Xiangyu Yue

分类: cs.AI, cs.CL

发布日期: 2025-12-18

备注: Preprint

🔗 代码/项目: GITHUB


💡 一句话要点

提出QuadSentinel以解决多智能体系统中的安全控制问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 安全控制 机器可检查规则 在线执行 自然语言政策

📋 核心要点

  1. 现有方法在多智能体系统中面临安全风险,尤其是自然语言政策模糊且上下文依赖,难以转化为机器可检查的规则。
  2. 本文提出QuadSentinel,通过四个智能体协同工作,将安全政策编译为机器可检查的规则,并在线执行以确保安全性。
  3. 实验结果显示,QuadSentinel在安全控制方面优于单智能体基线ShieldAgent,提升了守卫准确性和规则召回率,减少了误报。

📝 摘要(中文)

随着基于大型语言模型的智能体在复杂任务中使用工具、多步骤计划和智能体间消息,安全风险日益增加。然而,部署者编写的自然语言政策往往模糊且依赖上下文,导致其难以映射为机器可检查的规则,且运行时强制执行不可靠。为此,本文提出了QuadSentinel,一个由四个智能体(状态跟踪器、政策验证器、威胁监视器和裁判)组成的守卫,能够将安全政策编译为基于可观察状态的机器可检查规则并在线执行。通过裁判逻辑和高效的top-k谓词更新器,QuadSentinel在优先检查和分层解决冲突方面保持低成本。实验结果表明,QuadSentinel在ST-WebAgentBench和AgentHarm上提高了守卫准确性和规则召回率,同时减少了误报。

🔬 方法详解

问题定义:本文旨在解决多智能体系统中安全政策的模糊性和上下文依赖性,现有方法在将自然语言政策转化为机器可检查规则时存在显著不足,导致安全风险增加。

核心思路:QuadSentinel通过将安全政策表达为序列形式,利用四个智能体(状态跟踪器、政策验证器、威胁监视器和裁判)协同工作,能够有效地将这些政策编译为机器可检查的规则,并在运行时进行在线执行。

技术框架:QuadSentinel的整体架构包括四个主要模块:状态跟踪器负责监控系统状态,政策验证器检查政策的合规性,威胁监视器识别潜在威胁,裁判则负责优先级管理和冲突解决。

关键创新:QuadSentinel的主要创新在于其四智能体协作机制和高效的top-k谓词更新器,这使得安全政策的检查和执行更加高效且可靠,显著优于传统单智能体方法。

关键设计:在设计中,QuadSentinel采用了裁判逻辑来管理优先级,并通过top-k谓词更新器来优化检查过程,确保在低成本的情况下实现高效的安全控制。具体的参数设置和损失函数设计尚未详细说明,可能为未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ST-WebAgentBench和AgentHarm的实验中,QuadSentinel显著提高了守卫准确性和规则召回率,同时减少了误报,相较于单智能体基线ShieldAgent,表现出更优的整体安全控制能力。

🎯 应用场景

QuadSentinel的研究成果在多智能体系统的安全控制领域具有广泛的应用潜力,尤其适用于需要高安全性和可靠性的自动化系统,如无人驾驶汽车、智能制造和机器人协作等。其在线执行的能力使得在实际部署中能够灵活应对动态环境中的安全挑战。

📄 摘要(原文)

Safety risks arise as large language model-based agents solve complex tasks with tools, multi-step plans, and inter-agent messages. However, deployer-written policies in natural language are ambiguous and context dependent, so they map poorly to machine-checkable rules, and runtime enforcement is unreliable. Expressing safety policies as sequents, we propose \textsc{QuadSentinel}, a four-agent guard (state tracker, policy verifier, threat watcher, and referee) that compiles these policies into machine-checkable rules built from predicates over observable state and enforces them online. Referee logic plus an efficient top-$k$ predicate updater keeps costs low by prioritizing checks and resolving conflicts hierarchically. Measured on ST-WebAgentBench (ICML CUA~'25) and AgentHarm (ICLR~'25), \textsc{QuadSentinel} improves guardrail accuracy and rule recall while reducing false positives. Against single-agent baselines such as ShieldAgent (ICML~'25), it yields better overall safety control. Near-term deployments can adopt this pattern without modifying core agents by keeping policies separate and machine-checkable. Our code will be made publicly available at https://github.com/yyiliu/QuadSentinel.