Conformal Agent Error Attribution

📄 arXiv: 2605.06788v1 📥 PDF

作者: Naihe Feng, Yi Sui, Shiyi Hou, Ga Wu, Jesse C. Cresswell

分类: cs.LG, cs.MA

发布日期: 2026-05-07

备注: 10 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于共形预测的智能体错误归因框架,实现多智能体系统故障的精准定位与自动回滚。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 共形预测 错误归因 不确定性量化 轨迹分析 自动恢复 大语言模型

📋 核心要点

  1. 针对多智能体系统在长交互轨迹中难以定位故障源的问题,现有方法缺乏有效的错误归因机制,导致系统难以自动恢复。
  2. 提出基于共形预测(CP)的错误归因框架,通过引入过滤型CP算法,将错误定位转化为对连续序列集合的预测,提供统计学覆盖保证。
  3. 实验表明该方法能精确隔离错误,并支持系统自动回滚至正确状态,且具备模型无关性,为复杂MAS提供了可靠的调试工具。

📝 摘要(中文)

当多智能体系统(MAS)发生故障时,识别决定性错误发生的位置是实现自动恢复的首要步骤。由于基于大语言模型的MAS会产生长交互轨迹,错误归因仍是一项基础性挑战。本文提出了一个基于共形预测(Conformal Prediction, CP)的错误归因框架,该框架提供了有限样本下的分布无关覆盖保证。我们引入了针对序列数据(如智能体轨迹)的过滤型共形预测新算法。与现有CP算法不同,我们的方法预测的是连续序列集合,从而支持高效的系统恢复与调试。我们在多种智能体和数据集上验证了理论保证,证明了错误可以被精确隔离,并利用预测集合将MAS回滚至正确状态。该方法具有模型无关性,为MAS错误归因提供了一个有原则的不确定性量化层。

🔬 方法详解

问题定义:在多智能体系统(MAS)中,长交互轨迹使得定位导致系统失败的“关键错误点”变得极其困难。现有方法往往难以在不确定性量化与序列连续性之间取得平衡,导致无法有效回滚至故障前的正确状态。

核心思路:引入共形预测(Conformal Prediction)理论,利用其在有限样本下的分布无关覆盖保证,将错误归因建模为对错误发生时间段的集合预测。通过预测连续的轨迹片段,确保回滚操作的逻辑一致性。

技术框架:框架包含轨迹数据预处理、基于过滤的共形预测器构建、以及错误定位与回滚执行三个阶段。系统首先对智能体轨迹进行建模,利用共形分数(Conformal Score)评估每一步的异常程度,进而生成包含潜在错误点的置信区间。

关键创新:提出了针对序列数据的过滤型共形预测算法,与传统点预测或非连续集合预测不同,该方法强制输出连续的序列片段,这对于MAS的上下文恢复至关重要,避免了因断点导致的逻辑崩溃。

关键设计:采用了基于过滤(Filtration)的共形化策略,通过对轨迹序列的累积不确定性进行校准,确保预测集合在预设的置信水平下覆盖真实错误点,同时通过最小化集合长度来提升定位精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多种智能体基准测试中验证了该方法的有效性。结果显示,该框架能够以极高的置信度(如90%以上)精确隔离错误发生的时间窗口。相比于基线方法,该方案在保持统计覆盖保证的同时,显著减小了预测集合的长度,并成功实现了MAS在检测到错误后的自动回滚与自我修复。

🎯 应用场景

该研究适用于复杂多智能体协作系统,如自动化软件开发代理、机器人集群控制及自动驾驶决策系统。其核心价值在于为黑盒模型提供可解释的故障诊断能力,通过自动回滚机制显著降低系统维护成本,提升大规模AI代理系统的鲁棒性与安全性。

📄 摘要(原文)

When multi-agent systems (MAS) fail, identifying where the decisive error occurred is the first step for automated recovery to an earlier state. Error attribution remains a fundamental challenge due to the long interaction traces that large language model-based MAS generate. This paper presents a framework for error attribution based on conformal prediction (CP) which provides finite-sample, distribution-free coverage guarantees. We introduce new algorithms for filtration-based CP designed for sequential data such as agent trajectories. Unlike existing CP algorithms, our approach predicts sets that are contiguous sequences to enable efficient recovery and debugging. We verify our theoretical guarantees on a variety of agents and datasets, show that errors can be precisely isolated, then use prediction sets to rollback MAS to correct their own errors. Our overall approach is model-agnostic, and offers a principled uncertainty layer for MAS error attribution. We release code at https://github.com/layer6ai-labs/conformal-agent-error-attribution.