Evaluating Open-Source Large Language Models for Technical Telecom Question Answering

作者: Arina Caraus, Alessio Buscemi, Sumit Kumar, Ion Turcanu

分类: cs.NI, cs.CL

发布日期: 2025-09-26

备注: Accepted at the IEEE GLOBECOM Workshops 2025: "Large AI Model over Future Wireless Networks"

💡 一句话要点

评估开源大语言模型在电信技术问答中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电信技术 问答系统 性能评估 开源模型

📋 核心要点

现有大型语言模型在电信等专业技术领域的性能评估不足，缺乏针对性基准。
论文构建电信领域问答基准，对比Gemma和DeepSeek两大开源模型，考察其事实性和推理能力。
实验结果表明，现有模型在电信领域存在局限性，需要领域自适应模型来提升性能和可靠性。

📝 摘要（中文）

大型语言模型（LLM）在各个领域都展现出了卓越的能力。然而，它们在电信等技术领域的性能仍有待探索。本文评估了两个开源LLM，Gemma 3 27B和DeepSeek R1 32B，在基于高级无线通信材料的事实性和推理问题上的表现。我们构建了一个包含105个问答对的基准，并使用词汇指标、语义相似性和LLM作为评判者的评分来评估性能。我们还通过溯源和评分方差来分析一致性、判断可靠性和幻觉。结果表明，Gemma在语义保真度和LLM评分的正确性方面表现出色，而DeepSeek在词汇一致性方面略高。其他发现强调了当前电信应用的局限性，以及对领域自适应模型的需求，以支持工程领域中值得信赖的人工智能（AI）助手。

🔬 方法详解

问题定义：论文旨在评估通用大型语言模型在电信技术领域的问答能力。现有方法缺乏针对电信领域的专业评估，无法准确衡量LLM在该领域的性能，并且通用LLM可能无法很好地处理电信领域特有的术语和概念。

核心思路：论文的核心思路是构建一个专门针对电信领域的问答基准，并使用该基准来评估现有开源LLM的性能。通过对比不同模型的表现，可以了解它们在电信领域的优势和不足，从而为后续的领域自适应模型开发提供指导。

技术框架：论文的技术框架主要包括以下几个步骤：1) 构建电信领域问答基准，包含事实性和推理问题；2) 选择两个开源LLM（Gemma 3 27B和DeepSeek R1 32B）进行评估；3) 使用词汇指标、语义相似性和LLM作为评判者的评分来评估性能；4) 分析一致性、判断可靠性和幻觉。

关键创新：论文的关键创新在于构建了一个专门针对电信领域的问答基准。该基准包含了105个问答对，涵盖了高级无线通信材料，可以更准确地评估LLM在电信领域的性能。此外，论文还使用了多种评估指标，包括词汇指标、语义相似性和LLM作为评判者的评分，从而更全面地评估模型的性能。

关键设计：论文的关键设计包括：1) 问答基准的构建，需要保证问题的质量和多样性，以及答案的准确性；2) 评估指标的选择，需要选择能够反映模型在电信领域性能的指标，例如语义相似性和事实性；3) LLM作为评判者的评分，需要保证评分的可靠性和一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Gemma在语义保真度和LLM评分的正确性方面表现出色，而DeepSeek在词汇一致性方面略高。但总体而言，现有模型在电信领域的性能仍有提升空间，尤其是在处理复杂推理问题和避免幻觉方面。该研究强调了领域自适应模型在电信应用中的重要性。

🎯 应用场景

该研究成果可应用于开发电信领域的智能助手，帮助工程师快速查找信息、解决问题。通过领域自适应训练，可以提升LLM在电信领域的专业知识和服务能力，例如故障诊断、网络优化、技术咨询等，从而提高工作效率和降低成本。未来，该技术有望推动电信行业的智能化转型。

📄 摘要（原文）

Large Language Models (LLMs) have shown remarkable capabilities across various fields. However, their performance in technical domains such as telecommunications remains underexplored. This paper evaluates two open-source LLMs, Gemma 3 27B and DeepSeek R1 32B, on factual and reasoning-based questions derived from advanced wireless communications material. We construct a benchmark of 105 question-answer pairs and assess performance using lexical metrics, semantic similarity, and LLM-as-a-judge scoring. We also analyze consistency, judgment reliability, and hallucination through source attribution and score variance. Results show that Gemma excels in semantic fidelity and LLM-rated correctness, while DeepSeek demonstrates slightly higher lexical consistency. Additional findings highlight current limitations in telecom applications and the need for domain-adapted models to support trustworthy Artificial Intelligence (AI) assistants in engineering.

Evaluating Open-Source Large Language Models for Technical Telecom Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理