SADE: Symptom-Aware Diagnostic Escalation for LLM-Based Network Troubleshooting
作者: Kuan-Hao Tseng, Niruth Bogahawatta, Yasod Ginige, Kosta Dekic, Arunan Sivanathan, Suranga Seneviratne
分类: cs.NI, cs.AI
发布日期: 2026-05-06
💡 一句话要点
SADE:基于LLM网络故障排除的症状感知诊断升级方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络故障排除 大型语言模型 诊断策略 症状感知 根因定位
📋 核心要点
- 现有LLM网络故障排除方法缺乏结构化的诊断流程,导致证据收集与假设验证混淆,影响根因定位准确性。
- SADE通过显式编码Cisco故障排除方法,采用阶段门控诊断工作流程,分离证据获取和假设验证,提升诊断效率。
- 实验表明,SADE在NIKA基准测试中,相较于ReAct + GPT-5基线,根因F1提高了37个百分点,证明了其有效性。
📝 摘要(中文)
大型语言模型(LLM)代理越来越多地应用于网络故障排除,但公共基准测试上的根源定位远低于实际部署的阈值。我们认为,这是因为现有代理没有编码人类网络工程师使用的有条不紊的逐层方法,而是依赖于自由形式的审议,将证据获取与假设承诺混为一谈。我们提出了SADE(症状感知诊断升级),该代理将经典的Cisco故障排除方法编码为显式策略。SADE将阶段门控诊断工作流程(将证据获取与假设承诺分离)与路由的故障家族技能库和高收益诊断助手配对。在包含11个未见场景的公共NIKA基准测试的523个事件的保留集上,SADE将根源F1比ReAct + GPT-5基线提高了37个百分点;针对相同的Claude Sonnet后端的模型控制比较,在没有SADE策略的情况下,将其中22个点归因于诊断策略本身,表明该增益不是模型升级的副作用。
🔬 方法详解
问题定义:论文旨在解决现有基于LLM的网络故障排除方法在根因定位方面表现不佳的问题。现有方法通常采用自由形式的推理,缺乏结构化的诊断流程,导致证据收集与假设验证混淆,难以有效定位网络故障的根本原因。现有方法依赖于通用LLM能力,缺乏针对网络故障诊断的专业知识和策略。
核心思路:论文的核心思路是将经典的Cisco故障排除方法编码为LLM代理的显式策略。通过引入结构化的诊断流程,将证据获取和假设验证分离,避免了自由形式推理的随意性。SADE利用症状感知的诊断升级策略,逐步缩小故障范围,提高诊断效率。
技术框架:SADE的技术框架包含以下几个主要模块:1) 阶段门控诊断工作流程:将诊断过程分为证据获取和假设承诺两个阶段,确保每个阶段的目标明确。2) 路由的故障家族技能库:包含针对不同类型网络故障的专业技能,根据症状选择合适的技能进行诊断。3) 高收益诊断助手:提供常用的诊断工具和方法,辅助LLM代理进行故障定位。
关键创新:SADE最重要的技术创新点在于将经典的Cisco故障排除方法编码为LLM代理的显式策略。这种方法将领域知识融入到LLM代理中,使其能够更有效地进行网络故障诊断。与现有方法相比,SADE的结构化诊断流程和症状感知的诊断升级策略能够显著提高根因定位的准确性。
关键设计:SADE的关键设计包括:1) 阶段门控诊断工作流程的具体实现,例如如何定义证据获取和假设承诺阶段,以及如何在这两个阶段之间进行切换。2) 故障家族技能库的构建,例如如何对网络故障进行分类,以及如何为每种类型的故障设计相应的诊断技能。3) 高收益诊断助手的选择,例如选择哪些常用的诊断工具和方法,以及如何将这些工具和方法集成到LLM代理中。论文中没有明确给出具体的参数设置、损失函数、网络结构等技术细节,这部分信息未知。
📊 实验亮点
SADE在NIKA基准测试中表现出色,相较于ReAct + GPT-5基线,根因F1提高了37个百分点。模型控制的比较实验表明,SADE的诊断策略本身贡献了22个百分点的提升,证明了该策略的有效性。实验结果表明,SADE能够显著提高LLM代理在网络故障排除中的性能。
🎯 应用场景
SADE可应用于各种规模的网络故障排除场景,例如企业网络、数据中心网络和云计算网络。该研究的实际价值在于提高网络故障诊断的效率和准确性,减少网络中断时间,降低运维成本。未来,SADE可以与其他AI技术相结合,实现更智能化的网络管理和自动化运维。
📄 摘要(原文)
Large language model (LLM) agents are increasingly applied to network troubleshooting, but root-cause localization on public benchmarks remains well below practical deployment thresholds. We argue this is because existing agents do not encode the disciplined, layer-by-layer methodology that human network engineers use, and instead rely on free-form deliberation that conflates evidence acquisition with hypothesis commitment. We present SADE (Symptom-Aware Diagnostic Escalation), an agent that encodes the classical Cisco troubleshooting methodology as an explicit policy. SADE pairs a phase-gated diagnostic workflow, which separates evidence acquisition from hypothesis commitment, with a routed library of fault-family skills and high-yield diagnostic helpers. On a held-out 523 incident set of the public NIKA benchmark covering eleven unseen scenarios, SADE improves root-cause F1 by 37 percentage points over a ReAct + GPT-5 baseline; a model-controlled comparison against the same Claude Sonnet backend without the SADE policy attributes 22 of those points to the diagnostic policy alone, showing that the gain is not a side-effect of the model upgrade.