SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations
作者: Ivo Brett
分类: cs.SE, cs.AI, cs.CR
发布日期: 2026-03-16
💡 一句话要点
SKILLS:通过结构化知识注入提升LLM在电信运营中的可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 电信运营 结构化知识注入 API接口 自动化运维
📋 核心要点
- 现有通用LLM在电信运营中直接使用API接口时,缺乏领域知识指导,导致可靠性不足,难以胜任复杂工作流程。
- SKILLS框架通过注入结构化知识(SKILL.md文档),为LLM提供工作流程逻辑、API模式和业务规则,提升其在电信领域的性能。
- 实验结果表明,使用SKILLS后,多个开放权重模型在电信运营场景中的性能均得到显著提升,验证了结构化知识注入的有效性。
📝 摘要(中文)
随着电信运营商加速采用AI驱动的自动化,一个实际问题仍然悬而未决:通用大型语言模型(LLM)代理能否通过真实的API接口可靠地执行电信运营工作流程,还是需要结构化的领域指导?我们引入了SKILLS(用于LLM驱动的服务生命周期运营的结构化知识注入),这是一个基准框架,包含37个电信运营场景,涵盖8个TM Forum Open API领域(TMF620、TMF621、TMF622、TMF628、TMF629、TMF637、TMF639、TMF724)。每个场景都基于具有种子生产代表性数据的实时模拟API服务器、MCP工具接口和确定性评估规则,结合了响应内容检查、工具调用验证和数据库状态断言。我们评估了两种条件下的开放权重模型:基线(具有工具访问权限但没有领域指导的通用代理)和with-skill(使用编码工作流程逻辑、API模式和业务规则的可移植SKILL.md文档增强的代理)。跨5个开放权重模型条件和185个场景运行的结果表明,所有模型都具有一致的技能提升。MiniMax M2.5领先(with-skill 81.1%,+13.5pp),其次是Nemotron 120B(78.4%,+18.9pp),GLM-5 Turbo(78.4%,+5.4pp)和Seed 2.0 Lite(75.7%,+18.9pp)。
🔬 方法详解
问题定义:论文旨在解决通用LLM在电信运营自动化中,直接通过API接口执行任务时,由于缺乏领域知识和结构化指导而导致的可靠性问题。现有方法通常依赖于通用LLM的泛化能力,但无法保证在特定电信场景下的准确性和效率。
核心思路:论文的核心思路是通过结构化知识注入,为LLM提供电信领域的特定知识和指导,使其能够更好地理解和执行电信运营任务。这种方法类似于为LLM配备了一个“技能包”,使其能够更有效地利用API接口完成工作流程。
技术框架:SKILLS框架包含以下主要组成部分:1) 一组电信运营场景,涵盖多个TM Forum Open API领域;2) 模拟API服务器,提供具有代表性的生产数据;3) MCP工具接口,模拟真实的操作环境;4) 结构化知识文档(SKILL.md),编码工作流程逻辑、API模式和业务规则;5) 确定性评估规则,用于评估LLM的性能。LLM代理在接收到任务后,首先解析SKILL.md文档,获取相关知识,然后调用API接口执行任务,最后根据评估规则进行评估。
关键创新:论文的关键创新在于提出了结构化知识注入的概念,并将其应用于电信运营领域。与传统的微调或提示工程方法相比,结构化知识注入更加灵活和可移植,可以方便地应用于不同的LLM和场景。此外,SKILLS框架提供了一个全面的基准测试平台,可以用于评估LLM在电信运营领域的性能。
关键设计:SKILL.md文档采用Markdown格式,易于编写和维护。文档中包含工作流程逻辑、API模式和业务规则等信息,这些信息以结构化的方式组织,方便LLM解析和利用。评估规则包括响应内容检查、工具调用验证和数据库状态断言,可以全面评估LLM的性能。
📊 实验亮点
实验结果表明,通过结构化知识注入,多个开放权重模型在电信运营场景中的性能均得到显著提升。例如,MiniMax M2.5模型的性能提升了13.5个百分点,Nemotron 120B和Seed 2.0 Lite模型的性能均提升了18.9个百分点,验证了SKILLS框架的有效性。
🎯 应用场景
该研究成果可应用于电信运营商的自动化运维、故障诊断、服务开通等领域,提升运营效率,降低人工成本。未来,该方法可推广至其他垂直领域,如金融、医疗等,实现更智能化的业务流程。
📄 摘要(原文)
As telecommunications operators accelerate adoption of AI-enabled automation, a practical question remains unresolved: can general-purpose large language model (LLM) agents reliably execute telecom operations workflows through real API interfaces, or do they require structured domain guidance? We introduce SKILLS (Structured Knowledge Injection for LLM-driven Service Lifecycle operations), a benchmark framework comprising 37 telecom operations scenarios spanning 8 TM Forum Open API domains (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724). Each scenario is grounded in live mock API servers with seeded production-representative data, MCP tool interfaces, and deterministic evaluation rubrics combining response content checks, tool-call verification, and database state assertions. We evaluate open-weight models under two conditions: baseline (generic agent with tool access but no domain guidance) and with-skill (agent augmented with a portable SKILL.md document encoding workflow logic, API patterns, and business rules). Results across 5 open-weight model conditions and 185 scenario-runs show consistent skill lift across all models. MiniMax M2.5 leads (81.1% with-skill, +13.5pp), followed by Nemotron 120B (78.4%, +18.9pp), GLM-5 Turbo (78.4%, +5.4pp), and Seed 2.0 Lite (75.7%, +18.9pp).