SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations

作者: Ivo Brett

分类: cs.SE, cs.AI, cs.CR

发布日期: 2026-03-16

💡 一句话要点

SKILLS：通过结构化知识注入提升LLM在电信运营中的可靠性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电信运营 结构化知识注入 API接口 自动化运维

📋 核心要点

现有通用LLM在电信运营中直接使用API接口时，缺乏领域知识指导，导致可靠性不足，难以胜任复杂工作流程。
SKILLS框架通过注入结构化知识（SKILL.md文档），为LLM提供工作流程逻辑、API模式和业务规则，提升其在电信领域的性能。
实验结果表明，使用SKILLS后，多个开放权重模型在电信运营场景中的性能均得到显著提升，验证了结构化知识注入的有效性。

📝 摘要（中文）

随着电信运营商加速采用AI驱动的自动化，一个实际问题仍然悬而未决：通用大型语言模型（LLM）代理能否通过真实的API接口可靠地执行电信运营工作流程，还是需要结构化的领域指导？我们引入了SKILLS（用于LLM驱动的服务生命周期运营的结构化知识注入），这是一个基准框架，包含37个电信运营场景，涵盖8个TM Forum Open API领域（TMF620、TMF621、TMF622、TMF628、TMF629、TMF637、TMF639、TMF724）。每个场景都基于具有种子生产代表性数据的实时模拟API服务器、MCP工具接口和确定性评估规则，结合了响应内容检查、工具调用验证和数据库状态断言。我们评估了两种条件下的开放权重模型：基线（具有工具访问权限但没有领域指导的通用代理）和with-skill（使用编码工作流程逻辑、API模式和业务规则的可移植SKILL.md文档增强的代理）。跨5个开放权重模型条件和185个场景运行的结果表明，所有模型都具有一致的技能提升。MiniMax M2.5领先（with-skill 81.1%，+13.5pp），其次是Nemotron 120B（78.4%，+18.9pp），GLM-5 Turbo（78.4%，+5.4pp）和Seed 2.0 Lite（75.7%，+18.9pp）。

🔬 方法详解

问题定义：论文旨在解决通用LLM在电信运营自动化中，直接通过API接口执行任务时，由于缺乏领域知识和结构化指导而导致的可靠性问题。现有方法通常依赖于通用LLM的泛化能力，但无法保证在特定电信场景下的准确性和效率。

核心思路：论文的核心思路是通过结构化知识注入，为LLM提供电信领域的特定知识和指导，使其能够更好地理解和执行电信运营任务。这种方法类似于为LLM配备了一个“技能包”，使其能够更有效地利用API接口完成工作流程。

技术框架：SKILLS框架包含以下主要组成部分：1) 一组电信运营场景，涵盖多个TM Forum Open API领域；2) 模拟API服务器，提供具有代表性的生产数据；3) MCP工具接口，模拟真实的操作环境；4) 结构化知识文档（SKILL.md），编码工作流程逻辑、API模式和业务规则；5) 确定性评估规则，用于评估LLM的性能。LLM代理在接收到任务后，首先解析SKILL.md文档，获取相关知识，然后调用API接口执行任务，最后根据评估规则进行评估。

关键创新：论文的关键创新在于提出了结构化知识注入的概念，并将其应用于电信运营领域。与传统的微调或提示工程方法相比，结构化知识注入更加灵活和可移植，可以方便地应用于不同的LLM和场景。此外，SKILLS框架提供了一个全面的基准测试平台，可以用于评估LLM在电信运营领域的性能。

关键设计：SKILL.md文档采用Markdown格式，易于编写和维护。文档中包含工作流程逻辑、API模式和业务规则等信息，这些信息以结构化的方式组织，方便LLM解析和利用。评估规则包括响应内容检查、工具调用验证和数据库状态断言，可以全面评估LLM的性能。

📊 实验亮点

实验结果表明，通过结构化知识注入，多个开放权重模型在电信运营场景中的性能均得到显著提升。例如，MiniMax M2.5模型的性能提升了13.5个百分点，Nemotron 120B和Seed 2.0 Lite模型的性能均提升了18.9个百分点，验证了SKILLS框架的有效性。

🎯 应用场景

该研究成果可应用于电信运营商的自动化运维、故障诊断、服务开通等领域，提升运营效率，降低人工成本。未来，该方法可推广至其他垂直领域，如金融、医疗等，实现更智能化的业务流程。

📄 摘要（原文）

As telecommunications operators accelerate adoption of AI-enabled automation, a practical question remains unresolved: can general-purpose large language model (LLM) agents reliably execute telecom operations workflows through real API interfaces, or do they require structured domain guidance? We introduce SKILLS (Structured Knowledge Injection for LLM-driven Service Lifecycle operations), a benchmark framework comprising 37 telecom operations scenarios spanning 8 TM Forum Open API domains (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724). Each scenario is grounded in live mock API servers with seeded production-representative data, MCP tool interfaces, and deterministic evaluation rubrics combining response content checks, tool-call verification, and database state assertions. We evaluate open-weight models under two conditions: baseline (generic agent with tool access but no domain guidance) and with-skill (agent augmented with a portable SKILL.md document encoding workflow logic, API patterns, and business rules). Results across 5 open-weight model conditions and 185 scenario-runs show consistent skill lift across all models. MiniMax M2.5 leads (81.1% with-skill, +13.5pp), followed by Nemotron 120B (78.4%, +18.9pp), GLM-5 Turbo (78.4%, +5.4pp), and Seed 2.0 Lite (75.7%, +18.9pp).

SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理