GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

📄 arXiv: 2510.10581v2 📥 PDF

作者: Heng Zhang, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Yilei Yuan, Jin Huang

分类: cs.GR

发布日期: 2025-10-12 (更新: 2025-12-22)

备注: This submission has been withdrawn by the authors due to a fundamental error in the methodology that affects the validity of the main results


💡 一句话要点

GraphTracer:基于图引导的LLM Agent故障追踪,提升多轮深度搜索的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 故障诊断 信息依赖图 LLM Agent 深度搜索 错误追踪 图神经网络

📋 核心要点

  1. 多Agent系统在复杂任务中易失败,现有方法难以追踪跨Agent的错误传播和区分症状与根因。
  2. GraphTracer通过构建信息依赖图(IDG)来显式捕获Agent间的信息依赖,从而定位根因。
  3. 实验表明,GraphTracer在归因准确率上提升高达18.18%,并在实际部署中带来显著的性能改进。

📝 摘要(中文)

多Agent系统在大型语言模型的驱动下,擅长通过协同合作完成复杂任务,但在多轮深度搜索场景中面临较高的失败率。现有的时序归因方法难以准确诊断根本原因,尤其是在错误跨多个Agent传播时。通过分析动作序列来自动进行故障归因的尝试仍然无效,因为它们无法解释跨Agent的信息依赖关系。本文确定了两个核心挑战:(i)区分多Agent错误传播中的症状和根本原因,以及(ii)追踪超越时间顺序的信息依赖关系。为了解决这些问题,我们引入了GraphTracer,一个通过信息流分析重新定义故障归因的框架。GraphTracer构建信息依赖图(IDG)来显式地捕获Agent如何引用和构建先前的输出。它通过追踪这些依赖结构而不是依赖于时间序列来定位根本原因。GraphTracer还使用图感知的合成数据生成来针对关键节点,创建真实的失败场景。在Who&When基准测试和集成到生产系统中的评估表明,GraphTracer-8B实现了比最先进的模型高出18.18%的归因准确率,并在部署的多Agent框架中实现了4.8%到14.2%的性能改进,从而建立了一个用于多Agent系统调试的强大解决方案。

🔬 方法详解

问题定义:多Agent系统在多轮深度搜索任务中容易失败,现有的故障诊断方法主要依赖于时间序列分析,无法有效追踪跨Agent的信息依赖关系,难以区分错误传播中的症状和根本原因。这种局限性导致难以准确定位和修复系统中的错误。

核心思路:GraphTracer的核心思路是通过构建信息依赖图(IDG)来显式地建模Agent之间的信息流动和依赖关系。它不再依赖于时间顺序,而是通过追踪IDG中的依赖关系来定位错误的根本原因。这种方法能够更好地理解Agent之间的交互,从而更准确地进行故障归因。

技术框架:GraphTracer框架主要包含以下几个阶段:1) 构建信息依赖图(IDG):分析Agent之间的信息传递,建立节点表示Agent,边表示信息依赖关系的图结构。2) 故障追踪:通过在IDG中追踪依赖关系,从错误症状反向定位到根本原因。3) 图感知的合成数据生成:针对IDG中的关键节点,生成具有代表性的失败场景数据,用于训练和评估故障诊断模型。4) 故障诊断模型:利用生成的合成数据训练模型,用于自动识别和定位系统中的错误。

关键创新:GraphTracer的关键创新在于它将故障归因问题转化为一个图分析问题,通过显式地建模Agent之间的信息依赖关系,克服了传统时序分析方法的局限性。此外,图感知的合成数据生成方法能够有效地模拟真实的失败场景,提高故障诊断模型的泛化能力。

关键设计:IDG的构建是GraphTracer的关键。节点代表Agent的输出或状态,边表示Agent之间信息传递和依赖关系。边的权重可以根据信息传递的强度进行调整。在故障追踪过程中,可以使用图搜索算法(如深度优先搜索或广度优先搜索)来定位根本原因。图感知的合成数据生成需要精心设计,以确保生成的数据能够覆盖各种可能的失败场景,并具有足够的代表性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GraphTracer-8B在Who&When基准测试中,相比于最先进的模型,实现了高达18.18%的归因准确率提升。此外,将其集成到实际部署的多Agent框架中,性能提升了4.8%到14.2%。这些结果表明GraphTracer在实际应用中具有显著的优势,能够有效地提高多Agent系统的鲁棒性和性能。

🎯 应用场景

GraphTracer可应用于各种基于多Agent系统的复杂任务,例如智能客服、自动化流程管理、协同设计等。通过提高系统的稳定性和可靠性,GraphTracer能够降低维护成本,提升用户体验,并加速多Agent系统的部署和应用。未来,该技术有望扩展到更广泛的分布式系统和人工智能应用领域。

📄 摘要(原文)

Multi-agent systems powered by Large Language Models excel at complex tasks through coordinated collaboration, yet they face high failure rates in multi-turn deep search scenarios. Existing temporal attribution methods struggle to accurately diagnose root causes, particularly when errors propagate across multiple agents. Attempts to automate failure attribution by analyzing action sequences remain ineffective due to their inability to account for information dependencies that span agents. This paper identifies two core challenges: \textit{(i) distinguishing symptoms from root causes in multi-agent error propagation}, and \textit{(ii) tracing information dependencies beyond temporal order}. To address these issues, we introduce \textbf{GraphTracer}, a framework that redefines failure attribution through information flow analysis. GraphTracer constructs Information Dependency Graphs (IDGs) to explicitly capture how agents reference and build on prior outputs. It localizes root causes by tracing through these dependency structures instead of relying on temporal sequences. GraphTracer also uses graph-aware synthetic data generation to target critical nodes, creating realistic failure scenarios. Evaluations on the Who\&When benchmark and integration into production systems demonstrate that GraphTracer-8B achieves up to 18.18\% higher attribution accuracy compared to state-of-the-art models and enables 4.8\% to 14.2\% performance improvements in deployed multi-agent frameworks, establishing a robust solution for multi-agent system debugging.