Aegis: Automated Error Generation and Attribution for Multi-Agent Systems

📄 arXiv: 2509.14295v4 📥 PDF

作者: Fanqi Kong, Ruijie Zhang, Huaxiao Yin, Guibin Zhang, Xiaofei Zhang, Ziang Chen, Zhaowei Zhang, Xiaoyuan Zhang, Song-Chun Zhu, Xue Feng

分类: cs.RO, cs.MA

发布日期: 2025-09-17 (更新: 2025-10-10)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Aegis:自动化生成并归因多智能体系统错误,提升系统鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 错误归因 自动化数据生成 大型语言模型 鲁棒性

📋 核心要点

  1. 多智能体系统调试困难,缺乏大规模、多样化的错误归因数据集是主要瓶颈,现有方法依赖手动标注,成本高昂且难以扩展。
  2. Aegis框架利用大型语言模型,自适应地向成功轨迹注入上下文相关的错误,自动生成大规模、带标注的错误数据集。
  3. 实验表明,基于Aegis生成的数据训练的模型,在错误归因方面显著提升,部分模型性能超越了更大规模的专有模型。

📝 摘要(中文)

本文提出Aegis,一个用于多智能体系统(MAS)的自动化错误生成和归因框架。由于现有资源依赖于昂贵且不可扩展的手动标注,缺乏大规模、多样化的错误归因数据集,这严重阻碍了多智能体系统可靠性的提升。Aegis通过基于大型语言模型的操纵器,自适应地将上下文相关的错误注入到成功的执行轨迹中,从而构建了一个包含9,533条轨迹的大型数据集,该数据集带有标注的错误智能体和错误模式,覆盖了各种MAS架构和任务领域。Aegis利用细粒度的标签和正负样本对的结构化排列,支持三种不同的学习范式:监督微调、强化学习和对比学习。针对每种范式,本文都开发了相应的学习方法。综合实验表明,训练后的模型在错误归因方面取得了显著的改进。值得注意的是,一些微调后的LLM表现甚至优于规模大一个数量级的专有模型,验证了该自动化数据生成框架对于开发更鲁棒和可解释的多智能体系统的关键价值。

🔬 方法详解

问题定义:多智能体系统(MAS)在解决复杂问题方面取得了显著进展,但其可靠性面临挑战,调试难度大。现有方法依赖于手动标注错误数据,成本高昂且难以扩展,导致缺乏大规模、多样化的错误归因数据集,阻碍了MAS的鲁棒性和可解释性。

核心思路:Aegis的核心思路是利用大型语言模型(LLM)作为“操纵器”,自动生成带有错误标注的数据。通过在成功的执行轨迹中注入上下文相关的错误,模拟真实场景中可能出现的故障,从而低成本、高效地构建大规模的错误数据集。这样可以避免耗时耗力的人工标注,并保证数据的多样性。

技术框架:Aegis框架主要包含以下几个模块: 1. 轨迹收集模块:收集多智能体系统成功执行的任务轨迹。 2. LLM操纵器:利用LLM分析轨迹上下文,并自适应地注入各种错误,例如通信错误、感知错误、决策错误等。 3. 错误标注模块:自动标注注入错误的智能体和错误类型。 4. 数据集构建模块:将原始轨迹和注入错误后的轨迹组成正负样本对,构建大规模的错误归因数据集。 5. 模型训练模块:利用生成的数据集,采用监督微调、强化学习或对比学习等方法训练错误归因模型。

关键创新:Aegis的关键创新在于利用LLM自动生成错误数据,摆脱了对人工标注的依赖。这种方法不仅降低了成本,还提高了数据生成效率和多样性。此外,Aegis还支持多种学习范式,可以灵活地训练各种错误归因模型。

关键设计:LLM操纵器的设计至关重要,需要精心设计prompt,使其能够理解轨迹上下文并生成合理的错误。数据集构建时,需要合理设计正负样本对的比例,以平衡不同错误类型的影响。在模型训练方面,可以根据具体任务选择合适的损失函数和网络结构,例如,可以使用交叉熵损失函数进行监督微调,或者使用对比损失函数进行对比学习。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,基于Aegis生成的数据训练的模型在错误归因方面取得了显著的提升。例如,在某个任务中,微调后的LLM模型在错误归因准确率上超过了基线模型15个百分点。更令人惊讶的是,一些微调后的LLM模型甚至表现优于规模大一个数量级的专有模型,证明了Aegis框架的有效性和潜力。

🎯 应用场景

Aegis可应用于各种多智能体系统,例如自动驾驶、机器人协作、智能交通等。通过自动生成错误数据并训练错误归因模型,可以提高系统的鲁棒性和可靠性,减少故障带来的损失。此外,Aegis还可以帮助开发者更好地理解系统的薄弱环节,从而进行针对性的改进和优化,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Large language model based multi-agent systems (MAS) have unlocked significant advancements in tackling complex problems, but their increasing capability introduces a structural fragility that makes them difficult to debug. A key obstacle to improving their reliability is the severe scarcity of large-scale, diverse datasets for error attribution, as existing resources rely on costly and unscalable manual annotation. To address this bottleneck, we introduce Aegis, a novel framework for Automated error generation and attribution for multi-agent systems. Aegis constructs a large dataset of 9,533 trajectories with annotated faulty agents and error modes, covering diverse MAS architectures and task domains. This is achieved using a LLM-based manipulator that can adaptively inject context-aware errors into successful execution trajectories. Leveraging fine-grained labels and the structured arrangement of positive-negative sample pairs, Aegis supports three different learning paradigms: Supervised Fine-Tuning, Reinforcement Learning, and Contrastive Learning. We develop learning methods for each paradigm. Comprehensive experiments show that trained models consistently achieve substantial improvements in error attribution. Notably, several of our fine-tuned LLMs demonstrate performance competitive with or superior to proprietary models an order of magnitude larger, validating our automated data generation framework as a crucial resource for developing more robust and interpretable multi-agent systems. Our project website is available at https://kfq20.github.io/Aegis-Website/.