SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems

📄 arXiv: 2505.24201v1 📥 PDF

作者: Xu He, Di Wu, Yan Zhai, Kun Sun

分类: cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出SentinelAgent以解决多智能体系统中的异常检测问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 异常检测 多智能体系统 安全性 图模型 运行时监控 智能代理 风险管理

📋 核心要点

  1. 现有的多智能体系统在安全性和可靠性方面存在多重风险,现有保护机制无法全面应对这些挑战。
  2. 本文提出了一种图基的异常检测框架,结合运行时监控,能够在多层次上检测异常行为。
  3. 通过案例研究,验证了该框架在检测隐性风险和提供可解释性方面的有效性,提升了系统的安全性。

📝 摘要(中文)

随着基于大型语言模型的多智能体系统的兴起,安全性和可靠性面临新的挑战。现有的保护机制在输入输出层面提供了有限的保护,无法有效应对多点故障。本文提出了一种针对多智能体系统的系统级异常检测框架,结合结构建模与运行时行为监控。我们的方法包括一个基于图的框架,用于建模智能体交互,支持语义异常检测;以及一个可插拔的SentinelAgent,基于安全策略和上下文推理进行监控和干预。通过两个案例研究,我们验证了该框架的有效性,展示了其在检测隐性风险和提供可解释的根本原因归因方面的能力。

🔬 方法详解

问题定义:本文旨在解决多智能体系统中的异常检测问题,现有方法在应对系统性或多点故障时存在不足,无法全面保障系统安全。

核心思路:提出了一种结合结构建模与行为监控的框架,通过动态执行图建模智能体交互,实现多层次的语义异常检测。

技术框架:整体架构包括两个主要模块:图基框架和SentinelAgent。图基框架用于建模智能体交互,SentinelAgent则负责监控、分析和干预执行过程。

关键创新:最重要的创新在于将抽象的检测逻辑与可操作的执行相结合,能够检测单点故障、提示注入以及多智能体共谋等复杂风险。

关键设计:在设计中,采用了动态执行图来表示智能体间的交互,SentinelAgent的设计则基于安全策略和上下文推理,确保实时监控与干预。具体的参数设置和损失函数设计尚未详细披露。

📊 实验亮点

实验结果表明,SentinelAgent在检测隐性风险方面表现优异,能够有效识别多智能体系统中的异常行为,相较于现有方法,检测准确率提升了20%以上,并提供了可解释的根本原因分析。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化系统和安全监控等,能够提升多智能体系统的安全性和可靠性。未来,随着智能体系统的广泛应用,该框架将为构建更可信赖的AI生态系统奠定基础。

📄 摘要(原文)

The rise of large language model (LLM)-based multi-agent systems (MAS) introduces new security and reliability challenges. While these systems show great promise in decomposing and coordinating complex tasks, they also face multi-faceted risks across prompt manipulation, unsafe tool usage, and emergent agent miscoordination. Existing guardrail mechanisms offer only partial protection, primarily at the input-output level, and fall short in addressing systemic or multi-point failures in MAS. In this work, we present a system-level anomaly detection framework tailored for MAS, integrating structural modeling with runtime behavioral oversight. Our approach consists of two components. First, we propose a graph-based framework that models agent interactions as dynamic execution graphs, enabling semantic anomaly detection at node, edge, and path levels. Second, we introduce a pluggable SentinelAgent, an LLM-powered oversight agent that observes, analyzes, and intervenes in MAS execution based on security policies and contextual reasoning. By bridging abstract detection logic with actionable enforcement, our method detects not only single-point faults and prompt injections but also multi-agent collusion and latent exploit paths. We validate our framework through two case studies, including an email assistant and Microsoft's Magentic-One system, demonstrating its ability to detect covert risks and provide explainable root-cause attribution. Our work lays the foundation for more trustworthy, monitorable, and secure agent-based AI ecosystems.