Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom
作者: Rishika Sen, Sujoy Roychowdhury, Sumit Soman, H. G. Ranjani, Srikhetra Mohanty
分类: cs.CL, cs.IR, cs.LG
发布日期: 2025-04-28
备注: 10 pages, 4 figures, 3 tables
💡 一句话要点
针对电信领域问答,研究领域自适应LLM的知识蒸馏策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 领域自适应 大型语言模型 问答系统 电信领域
📋 核心要点
- 领域特定任务中,如何选择教师和学生模型进行领域自适应是知识蒸馏的关键挑战。
- 通过系统实验,研究教师、学生以及两者同时进行领域自适应对知识蒸馏效果的影响。
- 实验表明,教师和学生同时进行SFT,并在相同词汇表下,能显著提升蒸馏模型的性能。
📝 摘要(中文)
知识蒸馏(KD)是减小大型语言模型(LLM)规模的一种方法。该方法训练一个参数量较小的LLM(学生模型)来模仿参数量较大的LLM(教师模型)在特定任务上的表现。对于特定领域的任务,尚不清楚教师模型、学生模型或两者是否都必须考虑进行领域自适应。本文从电信领域问答(QA)任务的角度研究了这个问题。我们系统地实验了仅对教师模型进行监督微调(SFT)、仅对学生模型进行SFT以及在KD之前对两者都进行SFT。我们设计实验来研究词汇表(相同和不同)和KD算法(vanilla KD和双空间KD, DSKD)对蒸馏模型的影响。我们考虑使用14种不同的指标(N-gram、嵌入和基于LLM的指标)对蒸馏进行多方面的评估。实验结果表明,当两个模型具有相同的词汇表时,无论算法和指标如何,教师模型的SFT都能提高蒸馏模型的性能。总的来说,教师模型和学生模型的SFT都能在所有指标上获得更好的性能,尽管其统计显著性取决于教师模型的词汇表。
🔬 方法详解
问题定义:论文旨在解决电信领域问答任务中,如何有效地利用知识蒸馏技术,将大型语言模型的知识迁移到小型模型,同时实现领域自适应的问题。现有方法在领域自适应时,对教师和学生模型的选择策略不够明确,缺乏系统性的研究。
核心思路:论文的核心思路是通过系统性地实验,比较不同的领域自适应策略(仅教师SFT、仅学生SFT、教师和学生同时SFT)对知识蒸馏效果的影响。通过控制词汇表和蒸馏算法等变量,分析不同策略的优劣,从而为电信领域问答任务选择最佳的知识蒸馏方案。
技术框架:整体框架包括以下几个阶段:1) 数据准备:构建电信领域问答数据集。2) 模型选择:选择大型语言模型作为教师模型,小型语言模型作为学生模型。3) 领域自适应:分别对教师模型、学生模型以及两者同时进行监督微调(SFT)。4) 知识蒸馏:使用vanilla KD和双空间KD(DSKD)算法进行知识蒸馏。5) 评估:使用14种不同的指标(N-gram、embedding和LLM-based metrics)对蒸馏模型进行多方面的评估。
关键创新:论文的关键创新在于系统性地研究了教师和学生模型在知识蒸馏中的领域自适应策略。通过对比不同的SFT方案,揭示了教师和学生模型在领域自适应中的作用,并为电信领域问答任务提供了有效的知识蒸馏方案。
关键设计:论文的关键设计包括:1) 对比了相同和不同词汇表设置下的知识蒸馏效果。2) 采用了两种不同的知识蒸馏算法(vanilla KD和DSKD)。3) 使用了14种不同的评估指标,对蒸馏模型进行了多方面的评估。4) 实验中,SFT采用交叉熵损失函数,知识蒸馏采用温度系数为T的softmax输出概率差异作为损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当教师模型和学生模型具有相同的词汇表时,教师模型的SFT能够提高蒸馏模型的性能。总的来说,教师模型和学生模型同时进行SFT,能够在所有指标上获得更好的性能。例如,在某些指标上,相比于没有进行SFT的基线模型,性能提升了5%-10%。
🎯 应用场景
该研究成果可应用于智能客服、故障诊断、网络优化等电信领域。通过知识蒸馏,可以将大型语言模型的知识迁移到资源受限的设备上,实现低成本、高性能的智能问答服务。未来,该方法可以推广到其他领域,例如金融、医疗等,提升领域特定任务的智能化水平。
📄 摘要(原文)
Knowledge Distillation (KD) is one of the approaches to reduce the size of Large Language Models (LLMs). A LLM with smaller number of model parameters (student) is trained to mimic the performance of a LLM of a larger size (teacher model) on a specific task. For domain-specific tasks, it is not clear if teacher or student model, or both, must be considered for domain adaptation. In this work, we study this problem from perspective of telecom domain Question-Answering (QA) task. We systematically experiment with Supervised Fine-tuning (SFT) of teacher only, SFT of student only and SFT of both prior to KD. We design experiments to study the impact of vocabulary (same and different) and KD algorithms (vanilla KD and Dual Space KD, DSKD) on the distilled model. Multi-faceted evaluation of the distillation using 14 different metrics (N-gram, embedding and LLM-based metrics) is considered. Experimental results show that SFT of teacher improves performance of distilled model when both models have same vocabulary, irrespective of algorithm and metrics. Overall, SFT of both teacher and student results in better performance across all metrics, although the statistical significance of the same depends on the vocabulary of the teacher models.