POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems

作者: Iñaki Dellibarda Varela, R. Sendra-Arranz, Pablo Romero-Sorozabal, J. M. Valverde-García, Annemarie F. Laudanski, Álvaro Gutiérrez, Eduardo Rocon, Manuel Cebrian

分类: cs.AI

发布日期: 2026-06-01

备注: 44 pages, 6 figures

💡 一句话要点

提出POIROT以解决多智能体系统中的故障检测问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 故障检测 自我审计 大型语言模型 安全关键应用 认知多样性 开源库

📋 核心要点

现有的多智能体系统评估方法存在集中判断的缺陷，导致单点故障和专业知识依赖。
POIROT协议通过利用系统自身智能体的认知多样性，作为故障检测的诊断层，提升了评估的有效性。
实验结果显示，POIROT在复杂问题和多智能体环境中表现优越，显著提高了故障检测的准确性。

📝 摘要（中文）

在大型语言模型与多智能体系统（LLM-MAS）的结合中，尽管展现了卓越的推理能力，但由于出现的故障和幻觉，导致其在安全关键领域的应用受到阻碍。现有的评估方法存在集中判断的缺陷，容易形成单点故障并需要领域特定的专业知识。本文提出POIROT协议，利用系统自身的智能体作为诊断层，充分利用架构中已有的认知多样性。实验结果表明，POIROT在多个评估环境中优于单一LLM评估基线，且随着问题复杂度、智能体数量和故障维度的增加，性能提升显著。我们将POIROT作为开源库发布，并提供了用于安全关键多智能体系统故障归因的基准BLAME。

🔬 方法详解

问题定义：本文旨在解决多智能体系统中故障检测的不足，现有方法因集中判断而导致单点故障，且需要领域特定的专业知识，限制了其在安全关键领域的应用。

核心思路：POIROT协议的核心思路是将系统自身的智能体作为诊断层，利用其内部的认知多样性来进行故障检测，从而避免外部依赖和单点故障的问题。

技术框架：POIROT的整体架构包括多个智能体协同工作，形成一个自我审计的机制。主要模块包括智能体的故障检测、信息共享和集体决策等。

关键创新：POIROT的最大创新在于将智能体的集体智能用于自我审计，打破了传统方法依赖外部评估的局限性，提升了故障检测的可靠性和效率。

关键设计：在设计上，POIROT采用了多智能体协作机制，设置了适应性参数以应对不同复杂度的问题，并优化了信息传递和决策算法，以提高故障检测的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，POIROT在多个评估环境中超越了单一LLM评估基线，性能提升幅度达到1.60（OR = 1.60, $p = 0.008$），并且在复合故障条件下仍然保持优势，展示了其在复杂问题中的有效性。

🎯 应用场景

POIROT协议在安全关键领域具有广泛的应用潜力，如自动驾驶、医疗机器人和工业自动化等。通过增强系统的自我审计能力，能够有效提高故障检测的可靠性，降低安全风险，推动智能系统的安全应用。未来，POIROT的开放源代码也将促进相关领域的研究与发展。

📄 摘要（原文）

Orchestrating Large Language Models into Multi-Agent Systems (LLM-MAS) has unlocked remarkable reasoning capabilities, yet emergent failures and hallucinations that resist characterisation block their deployment in safety-critical domains -- a gap made legally untenable by emerging AI regulation. Existing evaluation paradigms share a common flaw: centralised judgment creates single points of failure and demands domain-specific expertise. Here we present POIROT, a protocol that repurposes a system's own agents as its diagnostic layer, leveraging the epistemic diversity already present in the architecture. Across evaluated settings, POIROT outperforms single-LLM evaluator baselines, with gains that scale with problem complexity (OR = 1.60, $p = 0.008$), agent count, and fault dimensionality, persisting under compound fault conditions. These results demonstrate that safety oversight need not be externalised: the agents executing a role carry sufficient collective intelligence to audit it. We release POIROT as an open-source library alongside BLAME, a benchmark for fault attribution in safety-critical multi-agent systems.

POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理