POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems
作者: Iñaki Dellibarda Varela, R. Sendra-Arranz, Pablo Romero-Sorozabal, J. M. Valverde-García, Annemarie F. Laudanski, Álvaro Gutiérrez, Eduardo Rocon, Manuel Cebrian
分类: cs.AI
发布日期: 2026-06-01
备注: 44 pages, 6 figures
💡 一句话要点
提出POIROT以解决多智能体系统中的故障检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 故障检测 自我审计 大型语言模型 安全关键应用 认知多样性 开源库
📋 核心要点
- 现有的多智能体系统评估方法存在集中判断的缺陷,导致单点故障和专业知识依赖。
- POIROT协议通过利用系统自身智能体的认知多样性,作为故障检测的诊断层,提升了评估的有效性。
- 实验结果显示,POIROT在复杂问题和多智能体环境中表现优越,显著提高了故障检测的准确性。
📝 摘要(中文)
在大型语言模型与多智能体系统(LLM-MAS)的结合中,尽管展现了卓越的推理能力,但由于出现的故障和幻觉,导致其在安全关键领域的应用受到阻碍。现有的评估方法存在集中判断的缺陷,容易形成单点故障并需要领域特定的专业知识。本文提出POIROT协议,利用系统自身的智能体作为诊断层,充分利用架构中已有的认知多样性。实验结果表明,POIROT在多个评估环境中优于单一LLM评估基线,且随着问题复杂度、智能体数量和故障维度的增加,性能提升显著。我们将POIROT作为开源库发布,并提供了用于安全关键多智能体系统故障归因的基准BLAME。
🔬 方法详解
问题定义:本文旨在解决多智能体系统中故障检测的不足,现有方法因集中判断而导致单点故障,且需要领域特定的专业知识,限制了其在安全关键领域的应用。
核心思路:POIROT协议的核心思路是将系统自身的智能体作为诊断层,利用其内部的认知多样性来进行故障检测,从而避免外部依赖和单点故障的问题。
技术框架:POIROT的整体架构包括多个智能体协同工作,形成一个自我审计的机制。主要模块包括智能体的故障检测、信息共享和集体决策等。
关键创新:POIROT的最大创新在于将智能体的集体智能用于自我审计,打破了传统方法依赖外部评估的局限性,提升了故障检测的可靠性和效率。
关键设计:在设计上,POIROT采用了多智能体协作机制,设置了适应性参数以应对不同复杂度的问题,并优化了信息传递和决策算法,以提高故障检测的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,POIROT在多个评估环境中超越了单一LLM评估基线,性能提升幅度达到1.60(OR = 1.60, $p = 0.008$),并且在复合故障条件下仍然保持优势,展示了其在复杂问题中的有效性。
🎯 应用场景
POIROT协议在安全关键领域具有广泛的应用潜力,如自动驾驶、医疗机器人和工业自动化等。通过增强系统的自我审计能力,能够有效提高故障检测的可靠性,降低安全风险,推动智能系统的安全应用。未来,POIROT的开放源代码也将促进相关领域的研究与发展。
📄 摘要(原文)
Orchestrating Large Language Models into Multi-Agent Systems (LLM-MAS) has unlocked remarkable reasoning capabilities, yet emergent failures and hallucinations that resist characterisation block their deployment in safety-critical domains -- a gap made legally untenable by emerging AI regulation. Existing evaluation paradigms share a common flaw: centralised judgment creates single points of failure and demands domain-specific expertise. Here we present POIROT, a protocol that repurposes a system's own agents as its diagnostic layer, leveraging the epistemic diversity already present in the architecture. Across evaluated settings, POIROT outperforms single-LLM evaluator baselines, with gains that scale with problem complexity (OR = 1.60, $p = 0.008$), agent count, and fault dimensionality, persisting under compound fault conditions. These results demonstrate that safety oversight need not be externalised: the agents executing a role carry sufficient collective intelligence to audit it. We release POIROT as an open-source library alongside BLAME, a benchmark for fault attribution in safety-critical multi-agent systems.