MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics

📄 arXiv: 2601.22633v1 📥 PDF

作者: Devansh Lodha, Mohit Panchal, Sameer G. Kulkarni

分类: cs.NI, cs.AI

发布日期: 2026-01-30

备注: Accepted at COMSNETS 2026 Graduate Forum. Best Paper Award (Runner Up). 5 pages, 3 figures


💡 一句话要点

MCP-Diag:一种确定性的、协议驱动的AI原生网络诊断架构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AIOps 网络诊断 大型语言模型 人机环 神经符号架构

📋 核心要点

  1. 现有 AIOps 方法难以处理厂商特定 CLI 输出的随机性,且赋予 AI 代理 shell 权限存在安全风险。
  2. MCP-Diag 采用确定性翻译层将网络工具输出转换为 JSON 模式,并引入人机环授权的启发循环。
  3. 实验表明,MCP-Diag 实现了 100% 的实体提取准确率,延迟开销低,并提升了上下文 token 利用率。

📝 摘要(中文)

将大型语言模型(LLM)集成到网络运维(AIOps)中面临两个根本挑战:随机性 grounding 问题,即 LLM 难以可靠地解析非结构化的、特定于供应商的 CLI 输出;以及授予自治代理 shell 访问权限的安全漏洞。本文介绍了 MCP-Diag,这是一种基于模型上下文协议(MCP)构建的混合神经符号架构。我们提出了一种确定性的翻译层,该层在 AI 摄取之前,将来自规范实用程序(dig、ping、traceroute)的原始 stdout 转换为严格的 JSON 模式。我们进一步引入了一个强制性的“启发循环”,该循环在协议级别强制执行人机环(HITL)授权。初步评估表明,MCP-Diag 实现了 100% 的实体提取准确率,执行延迟开销小于 0.9%,上下文 token 使用量增加了 3.7 倍。

🔬 方法详解

问题定义:现有 AIOps 系统在集成大型语言模型时,面临两个主要问题。一是大型语言模型难以准确解析来自不同厂商网络设备的非结构化命令行接口(CLI)输出,导致“随机性 grounding”问题,即模型无法可靠地理解和利用这些信息。二是直接赋予 AI 代理 shell 访问权限会带来严重的安全风险,可能导致未经授权的系统访问和潜在的恶意操作。

核心思路:MCP-Diag 的核心思路是通过引入一个确定性的翻译层,将非结构化的 CLI 输出转换为结构化的 JSON 模式,从而解决随机性 grounding 问题。同时,通过强制执行人机环(HITL)授权的“启发循环”,确保所有关键操作都经过人工审核和批准,从而解决安全问题。这种混合神经符号方法结合了 AI 的自动化能力和人类的判断力。

技术框架:MCP-Diag 的整体架构包含以下几个主要模块:1) 确定性翻译层:将来自标准网络工具(如 dig、ping、traceroute)的原始 stdout 转换为严格的 JSON 模式。2) 模型上下文协议(MCP):定义了数据交换和交互的标准。3) 启发循环:强制执行人机环授权,确保所有关键操作都经过人工审核和批准。4) AI 引擎:利用大型语言模型进行网络诊断和问题解决。

关键创新:MCP-Diag 的关键创新在于其确定性的翻译层和强制性的启发循环。确定性翻译层通过预定义的规则和模式,确保 CLI 输出的转换过程是可预测和一致的,从而消除了随机性 grounding 问题。启发循环则通过在协议层面强制执行人机环授权,显著提高了系统的安全性。

关键设计:确定性翻译层依赖于对标准网络工具输出的深入理解和精确建模,需要仔细设计 JSON 模式以准确表示各种网络参数和状态。启发循环的设计需要平衡自动化和安全性,确保人工审核流程不会成为性能瓶颈。此外,AI 引擎的选择和配置也至关重要,需要根据具体的网络诊断任务进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

初步实验结果表明,MCP-Diag 实现了 100% 的实体提取准确率,这意味着所有关键的网络信息都能被正确识别和解析。同时,执行延迟开销小于 0.9%,表明该架构对网络性能的影响很小。此外,上下文 token 使用量增加了 3.7 倍,表明该架构能够更有效地利用大型语言模型的上下文信息。

🎯 应用场景

MCP-Diag 可应用于各种网络运维场景,例如自动化故障诊断、网络性能优化和安全事件响应。通过提高网络诊断的准确性和效率,它可以帮助企业降低运维成本,提高网络可靠性,并增强网络安全性。未来,该架构可以扩展到支持更多类型的网络设备和协议,并集成更先进的 AI 技术。

📄 摘要(原文)

The integration of Large Language Models (LLMs) into network operations (AIOps) is hindered by two fundamental challenges: the stochastic grounding problem, where LLMs struggle to reliably parse unstructured, vendor-specific CLI output, and the security gap of granting autonomous agents shell access. This paper introduces MCP-Diag, a hybrid neuro-symbolic architecture built upon the Model Context Protocol (MCP). We propose a deterministic translation layer that converts raw stdout from canonical utilities (dig, ping, traceroute) into rigorous JSON schemas before AI ingestion. We further introduce a mandatory "Elicitation Loop" that enforces Human-in-the-Loop (HITL) authorization at the protocol level. Our preliminary evaluation demonstrates that MCP-Diag achieving 100% entity extraction accuracy with less than 0.9% execution latency overhead and 3.7x increase in context token usage.