TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?

📄 arXiv: 2605.18025v1 📥 PDF

作者: Jieting Xiao, Yun Lin, Huizhen Qiu, Rui Ma, Chen Zhong, Dongyang Xu, Xiao Long, Chaoyu Zhang, Qiaobo Hao, Ding Zou, Zhiguo Yang, Yanqin Gao, Fang Tan

分类: cs.AI

发布日期: 2026-05-18

备注: Accepted by KDD 2026

🔗 代码/项目: GITHUB


💡 一句话要点

TeleCom-Bench:评估大语言模型在工业电信应用中的能力差距,并提供领域对齐指导。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 电信应用 基准测试 知识图谱 端到端工作流

📋 核心要点

  1. 现有电信基准测试缺乏对设备特定文档和端到端工业工作流程的评估,无法真实反映实际生产需求。
  2. TeleCom-Bench通过构建多维知识理解和端到端知识应用两个层次的评估体系,弥补了现有基准的不足。
  3. 实验表明,现有LLM在语言界面任务表现良好,但在程序执行任务中性能显著下降,存在“执行壁垒”。

📝 摘要(中文)

大型语言模型(LLMs)在各个垂直领域取得了显著进展,但由于缺乏标准化的评估框架,它们在电信领域的部署仍处于探索阶段。现有的电信基准测试主要关注静态的基础知识和孤立的原子技能,忽略了设备特定的文档和端到端的工业工作流程,而这些对于实际生产系统至关重要。为了弥合这一差距,我们提出了TeleCom-Bench,这是一个全面的基准测试,包含12个评估集和22,678个精心策划的样本。它通过协同层次结构评估LLM:(1)多维知识理解,通过知识图驱动的合成,整合了电信基础知识、3GPP协议、5G网络架构以及有线、核心和无线网络的专有产品知识;(2)端到端知识应用,将来自真实网络代理工作流程的六个核心任务形式化,包括意图识别、实体提取、事件验证、工具调用、根本原因分析和解决方案生成——涵盖网络优化和故障维护场景。对八个最先进的LLM的评估揭示了一个普遍的执行壁垒:虽然模型在诸如意图识别和实体提取等语言界面任务中达到了90%的准确率,但在诸如解决方案生成等程序执行任务中,性能下降到大约30%。这种能力差距表明,当前的LLM能够胜任诊断师的角色,但无法胜任现场工程师的角色。TeleCom-Bench提供了标准化的诊断方法,可以精确地找出这种缺陷,并为面向生产就绪型电信代理的领域特定对齐提供可操作的指导。数据集和评估代码已在https://github.com/ZTE-AICloud/TeleCom-Bench上发布。

🔬 方法详解

问题定义:现有电信领域的大语言模型评估benchmark主要关注静态知识和孤立技能,缺乏对实际工业场景中设备特定文档和端到端工作流的评估。这导致LLM在实际电信应用中的性能无法得到有效衡量,阻碍了其在生产系统中的部署。现有方法无法准确反映LLM在解决复杂电信问题时的能力,例如故障诊断和解决方案生成。

核心思路:TeleCom-Bench的核心思路是构建一个更贴近实际工业场景的综合性评估基准。它通过整合电信基础知识、协议标准、网络架构以及专有产品知识,模拟真实的网络环境。同时,它将端到端的工作流程形式化为一系列可评估的任务,从而全面评估LLM在电信领域的知识理解和应用能力。

技术框架:TeleCom-Bench包含两个主要层次的评估体系:多维知识理解和端到端知识应用。多维知识理解层侧重于评估LLM对电信领域知识的掌握程度,包括电信基础、3GPP协议、5G网络架构以及有线、核心和无线网络的专有产品知识。这些知识通过知识图谱进行整合。端到端知识应用层则侧重于评估LLM在真实网络代理工作流程中的应用能力,包括意图识别、实体提取、事件验证、工具调用、根本原因分析和解决方案生成等六个核心任务。这些任务涵盖网络优化和故障维护等场景。

关键创新:TeleCom-Bench的关键创新在于其对电信领域知识的全面整合和对端到端工作流程的模拟。它不仅评估LLM对静态知识的掌握程度,更关注其在实际问题解决中的应用能力。此外,TeleCom-Bench还揭示了现有LLM在程序执行任务中的“执行壁垒”,为领域特定对齐提供了指导。

关键设计:TeleCom-Bench包含12个评估集,共计22,678个样本。这些样本经过精心策划,涵盖了电信领域的各种知识和任务。评估指标包括准确率、召回率、F1值等,用于全面评估LLM的性能。具体参数设置和网络结构取决于被评估的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的LLM在TeleCom-Bench的语言界面任务(如意图识别和实体提取)中达到了90%的准确率,但在程序执行任务(如解决方案生成)中,性能下降到大约30%。这揭示了LLM在电信领域应用中存在的“执行壁垒”,表明现有LLM更擅长诊断而非实际操作。

🎯 应用场景

TeleCom-Bench可用于评估和改进大语言模型在电信领域的应用能力,例如智能故障诊断、网络优化和自动化运维。通过该基准测试,可以开发出更智能、更高效的电信网络管理系统,降低运维成本,提高网络服务质量。未来,TeleCom-Bench可以扩展到其他垂直领域,为领域特定的大语言模型开发提供指导。

📄 摘要(原文)

While Large Language Models have achieved remarkable integration in various vertical scenarios, their deployment in the telecommunications domain remains exploratory due to the lack of a standardized evaluation framework. Current telecom benchmarks primarily focus on static, foundational knowledge and isolated atomic skills, neglecting the equipment-specific documentation and end-to-end industrial workflows essential for real-world production systems. To bridge this gap, we present TeleCom-Bench, a comprehensive benchmark comprising 12 evaluation sets with 22,678 curated samples, which evaluates LLMs across a synergistic hierarchy: (1) Multi-dimensional Knowledge Comprehension, which integrates telecommunication fundamentals, 3GPP protocols, and 5G network architecture with proprietary product knowledge across wired, core, and wireless networks via knowledge graph-driven synthesis; and (2)End-to-End Knowledge Application, which formalizes six core tasks on authentic trajectories from live network agent workflows, including intent recognition, entity extraction, event verification, tool invocation, root cause analysis, and solution generation-across network optimization and fault maintenance scenarios. Evaluations of eight state-of-the-art LLMs reveal a universal Execution Wall: while models achieve 90% accuracy in linguistic interface tasks such as intent recognition and entity extraction, performance collapses to approximately 30% in procedural execution tasks like solution generation. This capability gap demonstrates that current LLMs function competently as diagnosticians but fail as field engineers. TeleCom-Bench provides standardized diagnostics to precisely pinpoint this deficit, offering actionable guidance for domain-specific alignment toward production-ready telecom agents. The dataset and evaluation code have been released at https://github.com/ZTE-AICloud/TeleCom-Bench.