Evaluating Open-Source Large Language Models for Technical Telecom Question Answering

📄 arXiv: 2509.21949v1 📥 PDF

作者: Arina Caraus, Alessio Buscemi, Sumit Kumar, Ion Turcanu

分类: cs.NI, cs.CL

发布日期: 2025-09-26

备注: Accepted at the IEEE GLOBECOM Workshops 2025: "Large AI Model over Future Wireless Networks"


💡 一句话要点

评估开源大语言模型在电信技术问答中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电信技术 问答系统 性能评估 开源模型

📋 核心要点

  1. 现有大型语言模型在电信等专业技术领域的性能评估不足,缺乏针对性基准。
  2. 论文构建电信领域问答基准,对比Gemma和DeepSeek两大开源模型,考察其事实性和推理能力。
  3. 实验结果表明,现有模型在电信领域存在局限性,需要领域自适应模型来提升性能和可靠性。

📝 摘要(中文)

大型语言模型(LLM)在各个领域都展现出了卓越的能力。然而,它们在电信等技术领域的性能仍有待探索。本文评估了两个开源LLM,Gemma 3 27B和DeepSeek R1 32B,在基于高级无线通信材料的事实性和推理问题上的表现。我们构建了一个包含105个问答对的基准,并使用词汇指标、语义相似性和LLM作为评判者的评分来评估性能。我们还通过溯源和评分方差来分析一致性、判断可靠性和幻觉。结果表明,Gemma在语义保真度和LLM评分的正确性方面表现出色,而DeepSeek在词汇一致性方面略高。其他发现强调了当前电信应用的局限性,以及对领域自适应模型的需求,以支持工程领域中值得信赖的人工智能(AI)助手。

🔬 方法详解

问题定义:论文旨在评估通用大型语言模型在电信技术领域的问答能力。现有方法缺乏针对电信领域的专业评估,无法准确衡量LLM在该领域的性能,并且通用LLM可能无法很好地处理电信领域特有的术语和概念。

核心思路:论文的核心思路是构建一个专门针对电信领域的问答基准,并使用该基准来评估现有开源LLM的性能。通过对比不同模型的表现,可以了解它们在电信领域的优势和不足,从而为后续的领域自适应模型开发提供指导。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建电信领域问答基准,包含事实性和推理问题;2) 选择两个开源LLM(Gemma 3 27B和DeepSeek R1 32B)进行评估;3) 使用词汇指标、语义相似性和LLM作为评判者的评分来评估性能;4) 分析一致性、判断可靠性和幻觉。

关键创新:论文的关键创新在于构建了一个专门针对电信领域的问答基准。该基准包含了105个问答对,涵盖了高级无线通信材料,可以更准确地评估LLM在电信领域的性能。此外,论文还使用了多种评估指标,包括词汇指标、语义相似性和LLM作为评判者的评分,从而更全面地评估模型的性能。

关键设计:论文的关键设计包括:1) 问答基准的构建,需要保证问题的质量和多样性,以及答案的准确性;2) 评估指标的选择,需要选择能够反映模型在电信领域性能的指标,例如语义相似性和事实性;3) LLM作为评判者的评分,需要保证评分的可靠性和一致性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Gemma在语义保真度和LLM评分的正确性方面表现出色,而DeepSeek在词汇一致性方面略高。但总体而言,现有模型在电信领域的性能仍有提升空间,尤其是在处理复杂推理问题和避免幻觉方面。该研究强调了领域自适应模型在电信应用中的重要性。

🎯 应用场景

该研究成果可应用于开发电信领域的智能助手,帮助工程师快速查找信息、解决问题。通过领域自适应训练,可以提升LLM在电信领域的专业知识和服务能力,例如故障诊断、网络优化、技术咨询等,从而提高工作效率和降低成本。未来,该技术有望推动电信行业的智能化转型。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable capabilities across various fields. However, their performance in technical domains such as telecommunications remains underexplored. This paper evaluates two open-source LLMs, Gemma 3 27B and DeepSeek R1 32B, on factual and reasoning-based questions derived from advanced wireless communications material. We construct a benchmark of 105 question-answer pairs and assess performance using lexical metrics, semantic similarity, and LLM-as-a-judge scoring. We also analyze consistency, judgment reliability, and hallucination through source attribution and score variance. Results show that Gemma excels in semantic fidelity and LLM-rated correctness, while DeepSeek demonstrates slightly higher lexical consistency. Additional findings highlight current limitations in telecom applications and the need for domain-adapted models to support trustworthy Artificial Intelligence (AI) assistants in engineering.