SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems

📄 arXiv: 2505.24201v1 📥 PDF

作者: Xu He, Di Wu, Yan Zhai, Kun Sun

分类: cs.AI

发布日期: 2025-05-30


💡 一句话要点

提出SentinelAgent,用于多智能体系统中基于图的异常检测

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 异常检测 图神经网络 大型语言模型 安全策略 运行时监控 智能体交互 系统安全

📋 核心要点

  1. 现有MAS防护机制主要在输入输出层面,难以应对系统性或多点故障,无法有效检测多智能体间的复杂安全问题。
  2. 提出SentinelAgent框架,通过图结构建模智能体交互,并利用LLM驱动的监督智能体进行运行时行为分析和干预。
  3. 在电子邮件助手和微软Magentic-One系统上的实验表明,该框架能够检测隐蔽风险,并提供可解释的根本原因归因。

📝 摘要(中文)

基于大型语言模型(LLM)的多智能体系统(MAS)的兴起带来了新的安全性和可靠性挑战。这些系统在分解和协调复杂任务方面展现出巨大潜力,但也面临着提示操纵、不安全工具使用和突发智能体不协调等多方面的风险。现有的防护机制仅提供部分保护,主要在输入输出层面,无法解决MAS中的系统性或多点故障。本文提出了一个为MAS量身定制的系统级异常检测框架,将结构建模与运行时行为监督相结合。该方法包含两个组成部分。首先,提出了一个基于图的框架,将智能体交互建模为动态执行图,从而能够在节点、边和路径级别进行语义异常检测。其次,引入了一个可插拔的SentinelAgent,这是一个由LLM驱动的监督智能体,它基于安全策略和上下文推理来观察、分析和干预MAS的执行。通过将抽象的检测逻辑与可操作的执行相结合,该方法不仅可以检测单点故障和提示注入,还可以检测多智能体勾结和潜在的利用路径。通过两个案例研究(包括电子邮件助手和微软的Magentic-One系统)验证了该框架,证明了其检测隐蔽风险并提供可解释的根本原因归因的能力。这项工作为更值得信赖、可监控和安全的基于智能体的AI生态系统奠定了基础。

🔬 方法详解

问题定义:论文旨在解决多智能体系统(MAS)中日益增长的安全和可靠性问题。现有方法主要集中在输入输出层面的防护,无法有效检测系统性风险、多智能体勾结以及潜在的利用路径。这些痛点使得MAS在实际应用中面临诸多安全挑战。

核心思路:论文的核心思路是将MAS的智能体交互建模为动态执行图,并引入一个LLM驱动的监督智能体(SentinelAgent)来观察、分析和干预MAS的执行。通过图结构建模,可以捕捉智能体之间的复杂关系和潜在的异常行为。SentinelAgent则利用LLM的推理能力,基于安全策略和上下文信息进行决策,从而实现更全面的安全防护。

技术框架:该框架包含两个主要模块:图结构建模和SentinelAgent。首先,将MAS的智能体交互建模为动态执行图,其中节点代表智能体,边代表智能体之间的交互。然后,SentinelAgent作为一个可插拔的模块,观察MAS的执行过程,分析智能体的行为,并根据安全策略进行干预。SentinelAgent利用LLM进行上下文推理,从而能够检测单点故障、提示注入、多智能体勾结以及潜在的利用路径。

关键创新:该论文的关键创新在于将图结构建模与LLM驱动的监督智能体相结合,从而实现对MAS的系统级异常检测。与现有方法相比,该方法能够捕捉智能体之间的复杂关系和潜在的异常行为,并利用LLM的推理能力进行更全面的安全防护。此外,SentinelAgent的可插拔设计使得该框架具有良好的扩展性和适应性。

关键设计:动态执行图的构建需要定义节点和边的语义,以及如何根据智能体交互更新图结构。SentinelAgent的关键设计包括LLM的选择、安全策略的制定、上下文信息的获取以及干预策略的实现。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于实现层面的选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在电子邮件助手和微软Magentic-One系统上的案例研究,验证了SentinelAgent框架的有效性。实验结果表明,该框架能够检测隐蔽风险,并提供可解释的根本原因归因。具体的性能数据和提升幅度可能需要在论文中查找,但整体而言,实验结果证明了该框架在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于各种基于多智能体系统的应用场景,例如智能办公助手、自动化流程管理、安全监控系统等。通过提高MAS的安全性和可靠性,可以促进其在更广泛领域的应用,并为构建更值得信赖的AI生态系统做出贡献。未来,该技术有望应用于更复杂的智能体协作场景,例如自动驾驶、智能制造等。

📄 摘要(原文)

The rise of large language model (LLM)-based multi-agent systems (MAS) introduces new security and reliability challenges. While these systems show great promise in decomposing and coordinating complex tasks, they also face multi-faceted risks across prompt manipulation, unsafe tool usage, and emergent agent miscoordination. Existing guardrail mechanisms offer only partial protection, primarily at the input-output level, and fall short in addressing systemic or multi-point failures in MAS. In this work, we present a system-level anomaly detection framework tailored for MAS, integrating structural modeling with runtime behavioral oversight. Our approach consists of two components. First, we propose a graph-based framework that models agent interactions as dynamic execution graphs, enabling semantic anomaly detection at node, edge, and path levels. Second, we introduce a pluggable SentinelAgent, an LLM-powered oversight agent that observes, analyzes, and intervenes in MAS execution based on security policies and contextual reasoning. By bridging abstract detection logic with actionable enforcement, our method detects not only single-point faults and prompt injections but also multi-agent collusion and latent exploit paths. We validate our framework through two case studies, including an email assistant and Microsoft's Magentic-One system, demonstrating its ability to detect covert risks and provide explainable root-cause attribution. Our work lays the foundation for more trustworthy, monitorable, and secure agent-based AI ecosystems.