Beyond State Machines: Executing Network Procedures with Agentic Tool-Calling Sequences

📄 arXiv: 2605.02584v1 📥 PDF

作者: Purna Sai Garigipati, Onur Ayan, Kishor Chandra Joshi, Xueli An

分类: cs.NI, cs.AI

发布日期: 2026-05-04


💡 一句话要点

利用Agentic Tool-Calling序列执行网络程序,提升移动通信系统灵活性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 大型语言模型 网络程序执行 工具调用 移动通信系统

📋 核心要点

  1. 现有移动通信系统在自动化复杂网络操作和自主决策方面存在挑战,需要更灵活和定制化的服务。
  2. 本文探索使用基于LLM的Agentic AI,通过工具调用序列执行网络程序,以实现更智能的网络管理。
  3. 实验表明,将程序封装在单个工具中能有效降低延迟和减少错误,但所有模型在长序列执行中可靠性均下降。

📝 摘要(中文)

本文研究了如何利用基于大型语言模型(LLM)的网络AI Agent来执行表示为工具调用序列的网络程序。我们研究了四种方法,这些方法在Agent获取程序的方式以及Agent和底层工具之间执行的分配方式上有所不同。我们以用户设备(UE)IP分配程序作为案例研究,评估了这些方法的延迟和执行正确性。此外,我们进行了一项压力测试,以检查LLM Agent在失败之前可以可靠地执行多少个连续的程序步骤。结果表明,依赖于迭代Agent端推理的方法会产生更高的延迟,并且更容易出现执行错误,而将程序封装在单个工具中的方法(该工具通过调用其他工具在内部协调所需的步骤)通过限制重复推理来减少延迟。压力测试结果进一步表明,具有高级工具调用能力的模型比其他评估模型在更长的程序中保持可靠的执行;但是,所有模型都表现出随着程序长度的增加而可靠性下降,这揭示了基于多步骤工具的工作流程中存在明显的执行限制。为了系统地分析程序执行中的失败,我们引入了一种特定于程序的错误分类法,该分类法对多步骤程序执行中的偏差进行分类。

🔬 方法详解

问题定义:现有网络程序执行依赖于状态机等传统方法,缺乏灵活性和自适应性,难以应对复杂多变的移动通信环境。现有方法在自动化复杂网络操作和自主决策方面存在瓶颈,需要更智能的解决方案。

核心思路:利用大型语言模型(LLM)的Agentic能力,将网络程序表示为工具调用序列,通过Agent的推理和决策能力来编排和执行这些工具,从而实现更灵活、智能的网络管理。核心在于将复杂的网络操作分解为一系列可执行的工具调用,并由Agent负责协调这些工具的执行顺序和参数。

技术框架:本文研究了四种不同的方法,这些方法在Agent获取程序的方式以及Agent和底层工具之间执行的分配方式上有所不同。这些方法可以概括为:1) Agent迭代推理并调用工具;2) 将整个程序封装在一个工具中,由该工具内部编排其他工具的调用。整体流程包括:程序输入 -> Agent程序理解与规划 -> 工具调用序列生成 -> 工具执行 -> 结果反馈 -> (迭代,直到程序完成)。

关键创新:关键创新在于将LLM的Agentic能力引入网络程序执行,并提出了一种基于工具调用序列的程序表示方法。与传统的状态机方法相比,该方法更灵活、更具自适应性,能够更好地应对复杂多变的移动通信环境。此外,本文还提出了一个程序特定错误分类法,用于系统地分析多步骤程序执行中的失败。

关键设计:论文中关键的设计包括:1) 如何将网络程序分解为合适的工具调用序列;2) 如何设计Agent的推理和决策机制,使其能够正确地编排和执行这些工具;3) 如何评估Agent的执行正确性和效率。此外,论文还关注了LLM在长序列执行中的可靠性问题,并进行了压力测试。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将程序封装在单个工具中的方法能够显著降低延迟,并减少执行错误。压力测试显示,具有高级工具调用能力的模型在更长的程序中保持了较高的可靠性,但所有模型在长序列执行中都存在可靠性下降的问题。研究还提出了一个程序特定错误分类法,用于系统地分析多步骤程序执行中的失败。

🎯 应用场景

该研究成果可应用于未来的移动通信系统设计,实现灵活和定制化的服务,自动化复杂的网络操作,并驱动整个网络的自主决策。例如,可以用于智能网络切片、动态资源分配、故障诊断和修复等场景,提升网络效率和服务质量。

📄 摘要(原文)

Agentic AI will be an essential enabling technology for designing future mobile communication systems, which could provide flexible and customized services, automate complex network operations, and drive autonomous decision-making across the network. This work studies how Large Language Model (LLM)-based network AI agents can be utilized to execute network procedures expressed as sequences of tool invocations. We investigate four approaches, which differ in how the agent obtains the procedure and in how execution is distributed between the agent and the underlying tools. We evaluated the latency and execution correctness across these approaches using a User Equipment (UE) IP allocation procedure as a case study. Furthermore, we conduct a stress test to examine how many sequential procedural steps an LLM agent can reliably execute before failure. Our results show that approaches relying on iterative agent-side reasoning incur higher latency and are more prone to execution errors, while approaches where the procedure is encapsulated within a single tool, which internally orchestrates the required steps by invoking other tools, reduce latency by limiting repeated reasoning. The stress-test results further show that the model with advanced tool-calling capability maintains reliable execution over longer procedures than the other evaluated models; however, all models exhibit reliability degradation as procedure length increases, revealing clear execution limits in multi-step tool-based workflows. To systematically analyze failures in procedure execution, we introduce a procedure-specific error taxonomy that categorizes deviations in multi-step procedural execution.