GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems

📄 arXiv: 2604.24477v1 📥 PDF

作者: Pablo Mateo-Torrejón, Alfonso Sánchez-Macián

分类: cs.CR, cs.AI

发布日期: 2026-04-27


💡 一句话要点

GAMMAF:LLM多智能体系统中基于图的异常监控基准测试通用框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 异常检测 图神经网络 基准测试

📋 核心要点

  1. 多智能体系统集成LLM后,面临提示注入和智能体间通信受损等安全挑战,现有方法缺乏标准化评估环境。
  2. GAMMAF框架旨在提供一个开源基准测试平台,用于生成合成数据并评估现有及未来防御模型的性能。
  3. 实验表明,GAMMAF具有高效用性、拓扑可扩展性和执行效率,且攻击补救能显著降低运营成本。

📝 摘要(中文)

大型语言模型(LLM)快速集成到多智能体系统(MAS)中,显著增强了其协同问题解决能力,但也扩大了攻击面,使其容易受到诸如提示注入和受损的智能体间通信等漏洞的攻击。虽然新兴的基于图的异常检测方法在保护这些网络方面显示出前景,但该领域目前缺乏一个标准化的、可复现的环境来训练这些模型并评估其有效性。为了解决这一差距,我们引入了Gammaf(用于LLM多智能体系统的基于图的异常监控框架),一个开源的基准测试平台。Gammaf本身不是一种新颖的防御机制,而是一种全面的评估架构,旨在生成合成的多智能体交互数据集,并对现有和未来的防御模型的性能进行基准测试。该框架通过两个相互依赖的流程运行:训练数据生成阶段,模拟跨各种网络拓扑的辩论,以捕获作为鲁棒属性图的交互;以及防御系统基准测试阶段,通过在实时推理轮次中动态隔离标记的对抗节点来主动评估防御模型。通过使用已建立的防御基线(XG-Guard和BlindGuard)跨多个知识任务(如MMLU-Pro和GSM8K)进行严格评估,我们证明了Gammaf的高效用性、拓扑可扩展性和执行效率。此外,我们的实验结果表明,为LLM-MAS配备有效的攻击补救措施不仅可以恢复系统完整性,还可以通过促进早期共识和切断对抗性智能体的广泛token生成来显著降低总体运营成本。

🔬 方法详解

问题定义:现有的多智能体系统(MAS)在集成大型语言模型(LLM)后,面临着日益严峻的安全威胁,例如提示注入攻击和智能体间通信被恶意篡改。虽然基于图的异常检测方法在防御这些攻击方面展现出潜力,但缺乏一个统一、可复现的基准测试环境来训练和评估这些防御模型的性能,这阻碍了该领域的发展。

核心思路:GAMMAF框架的核心思路是构建一个全面的评估架构,通过模拟多智能体之间的交互过程,生成带有属性信息的图结构数据,并在此基础上对不同的防御模型进行基准测试。通过动态隔离被标记为对抗性的节点,可以评估防御模型在实时推理过程中的有效性。这种方法允许研究人员在一个可控的环境中比较不同防御策略的优劣,从而推动更有效的防御机制的开发。

技术框架:GAMMAF框架包含两个主要阶段:训练数据生成和防御系统基准测试。在训练数据生成阶段,框架模拟多智能体在不同网络拓扑结构下的辩论过程,将智能体之间的交互转化为带有属性信息的图结构。这些属性包括智能体的角色、消息内容、交互时间等。在防御系统基准测试阶段,框架利用生成的图数据对不同的防御模型进行训练和评估。评估过程模拟实时推理场景,动态地隔离被防御模型标记为对抗性的节点,并观察系统的整体性能。

关键创新:GAMMAF的关键创新在于提供了一个统一的、可复现的基准测试平台,用于评估LLM多智能体系统中的异常检测方法。它通过模拟真实世界的交互场景,生成带有属性信息的图结构数据,并提供了一套标准的评估指标。这使得研究人员可以更加方便地比较不同防御模型的性能,并推动该领域的发展。与以往的研究相比,GAMMAF更加注重实际应用,并提供了一个可扩展的框架,可以方便地集成新的防御模型和评估指标。

关键设计:GAMMAF框架的关键设计包括:1) 多智能体交互模拟器的设计,该模拟器能够生成各种类型的交互数据,包括正常交互和恶意攻击;2) 图结构数据的表示方法,该方法能够有效地表示智能体之间的关系和属性信息;3) 防御模型的评估指标,包括准确率、召回率、F1值等;4) 动态隔离机制,该机制能够模拟实时推理场景,并评估防御模型在实际应用中的性能。框架使用XG-Guard和BlindGuard作为基线模型,并在MMLU-Pro和GSM8K等知识任务上进行了评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAMMAF框架能够有效地评估不同防御模型的性能。使用XG-Guard和BlindGuard作为基线模型,在MMLU-Pro和GSM8K等知识任务上进行了评估,结果显示配备有效攻击补救措施的LLM-MAS不仅恢复了系统完整性,还通过促进早期共识和切断对抗性智能体的token生成,显著降低了总体运营成本。具体性能数据和提升幅度未知。

🎯 应用场景

GAMMAF框架可应用于评估和改进各种基于LLM的多智能体系统的安全性,例如智能客服、协同决策系统、自动化交易平台等。通过该框架,开发者可以更好地了解系统的安全风险,并选择合适的防御机制来保护系统免受攻击。该框架还有助于推动新型防御技术的研究和发展,最终构建更安全、可靠的智能体系统。

📄 摘要(原文)

The rapid integration of Large Language Models (LLMs) into Multi-Agent Systems (MAS) has significantly enhanced their collaborative problem-solving capabilities, but it has also expanded their attack surfaces, exposing them to vulnerabilities such as prompt infection and compromised inter-agent communication. While emerging graph-based anomaly detection methods show promise in protecting these networks, the field currently lacks a standardized, reproducible environment to train these models and evaluate their efficacy. To address this gap, we introduce Gammaf (Graph-based Anomaly Monitoring for LLM Multi-Agent systems Framework), an open-source benchmarking platform. Gammaf is not a novel defense mechanism itself, but rather a comprehensive evaluation architecture designed to generate synthetic multi-agent interaction datasets and benchmark the performance of existing and future defense models. The proposed framework operates through two interdependent pipelines: a Training Data Generation stage, which simulates debates across varied network topologies to capture interactions as robust attributed graphs, and a Defense System Benchmarking stage, which actively evaluates defense models by dynamically isolating flagged adversarial nodes during live inference rounds. Through rigorous evaluation using established defense baselines (XG-Guard and BlindGuard) across multiple knowledge tasks (such as MMLU-Pro and GSM8K), we demonstrate Gammaf's high utility, topological scalability, and execution efficiency. Furthermore, our experimental results reveal that equipping an LLM-MAS with effective attack remediation not only recovers system integrity but also substantially reduces overall operational costs by facilitating early consensus and cutting off the extensive token generation typical of adversarial agents.