Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks

📄 arXiv: 2507.07630v1 📥 PDF

作者: Joyeeta Datta, Niclas Doll, Qusai Ramadan, Zeyd Boukhers

分类: cs.CL, cs.LG

发布日期: 2025-07-10

备注: Accepted four publication at the 26th Meeting of the Special Interest on Discourse and Dialogue


💡 一句话要点

通过知识蒸馏压缩LLM:在QA任务中探索模型压缩的极限。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大型语言模型 模型压缩 问答系统 资源受限 提示学习 Pythia Qwen2.5

📋 核心要点

  1. 大型语言模型计算需求高,难以在资源受限环境部署,需要探索有效的压缩方法。
  2. 采用知识蒸馏方法,将大型教师模型的知识迁移到小型学生模型,实现模型压缩。
  3. 实验表明,压缩后的学生模型在QA任务上保持了较高性能,并探索了单样本提示带来的增益。

📝 摘要(中文)

大型语言模型(LLM)在各种NLP任务中表现出色,但其计算需求阻碍了它们在资源受限的实际环境中的部署。本文研究了使用知识蒸馏(KD)压缩LLM的程度,同时保持在问答(QA)任务上的强大性能。我们评估了从Pythia和Qwen2.5系列中蒸馏出的学生模型在SQuAD和MLQA两个QA基准上的表现,采用零样本和单样本提示条件。结果表明,学生模型在参数量减少高达57.1%的同时,保留了其教师模型90%以上的性能。此外,对于两个模型系列,单样本提示比零样本设置产生额外的性能提升。这些发现强调了模型效率和任务性能之间的权衡,表明KD与最少的提示相结合,可以产生紧凑但功能强大的QA系统,适用于资源受限的应用。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)计算资源需求高,难以在资源受限环境中部署的问题。现有方法,如直接部署大型模型,会消耗大量计算资源和能源,成本高昂。因此,需要探索一种有效的模型压缩方法,在保证模型性能的同时,降低计算资源需求。

核心思路:论文的核心思路是利用知识蒸馏(Knowledge Distillation, KD)技术,将大型、复杂的教师模型(Teacher Model)的知识迁移到小型、简单的学生模型(Student Model)。通过让学生模型学习教师模型的输出分布,使其能够模仿教师模型的行为,从而在参数量减少的情况下,保持较高的性能。

技术框架:整体框架包括以下几个主要步骤:1) 选择预训练的LLM作为教师模型(如Pythia或Qwen2.5系列);2) 构建学生模型,通常是参数量较小的LLM;3) 使用QA数据集(如SQuAD或MLQA)对学生模型进行知识蒸馏训练,目标是最小化学生模型和教师模型在QA任务上的输出差异;4) 在测试集上评估学生模型的性能,并与教师模型进行比较。同时,论文还探索了零样本和单样本提示对模型性能的影响。

关键创新:论文的关键创新在于探索了知识蒸馏在压缩LLM用于QA任务上的极限。通过实验,论文证明了在大幅减少模型参数量的情况下,学生模型仍然可以保持教师模型的大部分性能。此外,论文还发现,结合单样本提示可以进一步提升学生模型的性能。这表明知识蒸馏和提示学习是压缩LLM并使其适用于资源受限环境的有效方法。

关键设计:论文的关键设计包括:1) 选择合适的教师模型和学生模型,考虑模型家族和参数量大小;2) 设计合适的损失函数,用于衡量学生模型和教师模型输出的差异,例如KL散度;3) 探索不同的提示策略,例如零样本和单样本提示,以提升模型性能;4) 仔细选择训练数据和评估指标,以确保实验结果的可靠性和可比性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,通过知识蒸馏,学生模型在参数量减少高达57.1%的情况下,仍然能够保留教师模型90%以上的性能。此外,单样本提示能够进一步提升学生模型的性能,使其在某些情况下甚至可以超越教师模型。这些结果验证了知识蒸馏在压缩LLM方面的有效性,并为资源受限环境下的LLM部署提供了新的思路。

🎯 应用场景

该研究成果可应用于各种资源受限的场景,例如移动设备上的智能问答、边缘计算环境下的自然语言处理、以及低功耗嵌入式系统中的语言模型部署。通过知识蒸馏压缩LLM,可以降低模型部署的成本和能耗,使其能够更广泛地应用于实际场景,推动人工智能技术的普及。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated outstanding performance across a range of NLP tasks, however, their computational demands hinder their deployment in real-world, resource-constrained environments. This work investigates the extent to which LLMs can be compressed using Knowledge Distillation (KD) while maintaining strong performance on Question Answering (QA) tasks. We evaluate student models distilled from the Pythia and Qwen2.5 families on two QA benchmarks, SQuAD and MLQA, under zero-shot and one-shot prompting conditions. Results show that student models retain over 90% of their teacher models' performance while reducing parameter counts by up to 57.1%. Furthermore, one-shot prompting yields additional performance gains over zero-shot setups for both model families. These findings underscore the trade-off between model efficiency and task performance, demonstrating that KD, combined with minimal prompting, can yield compact yet capable QA systems suitable for resource-constrained applications.