TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

📄 arXiv: 2603.24518v1 📥 PDF

作者: Yushi Guan, Jeanine Ohene-Agyei, Daniel Kwan, Jean Sebastien Dandurand, Yifei Zhang, Nandita Vijaykumar

分类: cs.LG

发布日期: 2026-03-25


💡 一句话要点

提出TuneShift-KD,通过困惑度差异蒸馏微调模型中的领域知识到新模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 模型微调 领域知识迁移 困惑度 大型语言模型

📋 核心要点

  1. 现有方法难以在缺乏原始训练数据的情况下,将微调模型中的专业知识迁移到新的预训练模型。
  2. TuneShift-KD通过分析基础模型和微调模型在少量提示上的困惑度差异,自动识别并提取专业知识。
  3. 实验表明,TuneShift-KD能够有效提升目标模型在特定领域的准确率,优于现有知识迁移方法。

📝 摘要(中文)

为了将领域特定或专业知识嵌入到预训练的基础模型中,通常采用微调技术,例如参数高效微调(如LoRA)。然而,随着新的LLM架构和预训练模型的出现,将这些专业知识转移到更新的模型变得至关重要。在许多情况下,由于隐私或商业限制,原始的专业数据可能不可用,因此需要将这些专业知识从微调后的基础模型蒸馏并转移到不同的预训练模型。我们提出了TuneShift-KD,一种新颖的方法,它仅使用少量代表专业信息的示例,自动地将专业知识从微调后的模型蒸馏到目标模型。我们的关键见解是,专业知识可以通过基础模型和微调模型之间的困惑度差异来识别:微调模型响应置信度高(低困惑度),而基础模型表现不佳(高困惑度)的提示,表明与微调模型学习的专业知识相对应的查询。TuneShift-KD利用这一见解来创建合成训练数据集,以转移专业知识。通过迭代过程,TuneShift-KD生成更多类似于那些产生具有专业知识的响应的提示。TuneShift-KD不需要训练判别器或访问训练数据集。它是一种自动化方法,只需要初始的微调模型和基础模型以及一些代表性的提示。实验表明,使用TuneShift-KD微调的模型比以前的方法实现了更高的准确率,从而更容易部署并更有效地转移专业知识。

🔬 方法详解

问题定义:论文旨在解决如何将领域特定知识从一个已经微调过的模型迁移到另一个新的预训练模型的问题。现有方法通常需要访问原始的训练数据,但在许多实际场景中,这些数据由于隐私或商业原因不可用。因此,如何在没有原始数据的情况下,有效地将专业知识从微调模型迁移到新模型是一个挑战。

核心思路:论文的核心思路是利用困惑度(perplexity)来识别微调模型所掌握的专业知识。具体来说,如果一个微调模型对某个提示的困惑度很低,而原始的基础模型对同一个提示的困惑度很高,那么这个提示很可能与微调模型学习到的专业知识相关。通过生成类似的提示,可以构建一个合成数据集,用于训练新的模型,从而将专业知识迁移过去。

技术框架:TuneShift-KD的整体流程如下:1) 选择少量代表性的提示。2) 计算基础模型和微调模型在这些提示上的困惑度。3) 根据困惑度差异,筛选出与专业知识相关的提示。4) 使用这些提示生成更多类似的提示,构建合成训练数据集。5) 使用合成数据集训练目标模型。

关键创新:TuneShift-KD的关键创新在于利用困惑度差异来自动识别和提取专业知识,从而避免了对原始训练数据的依赖。与传统的知识蒸馏方法相比,TuneShift-KD不需要训练判别器,也不需要访问原始数据集,只需要初始的微调模型和基础模型以及一些代表性的提示。

关键设计:TuneShift-KD的关键设计包括:1) 如何选择代表性的提示。2) 如何计算困惑度差异的阈值。3) 如何生成更多类似的提示。论文采用迭代的方式生成更多提示,并使用困惑度差异作为筛选标准。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。

📊 实验亮点

实验结果表明,使用TuneShift-KD微调的模型在特定领域的准确率显著高于其他知识迁移方法。具体的数据和提升幅度在摘要中没有给出,属于未知信息。但论文强调,TuneShift-KD能够更有效地转移专业知识,并简化部署流程。

🎯 应用场景

TuneShift-KD可应用于各种需要将领域知识从一个模型迁移到另一个模型的场景,例如:将医疗领域的专业知识从一个微调过的LLM迁移到另一个更强大的LLM,或者将金融领域的知识从一个旧模型迁移到新模型。该方法尤其适用于原始数据不可用的情况,可以降低知识迁移的成本和难度,加速新模型的部署。

📄 摘要(原文)

To embed domain-specific or specialized knowledge into pre-trained foundation models, fine-tuning using techniques such as parameter efficient fine-tuning (e.g. LoRA) is a common practice. However, as new LLM architectures and pre-trained models emerge, transferring this specialized knowledge to newer models becomes an important task. In many scenarios, the original specialized data may be unavailable due to privacy or commercial restrictions, necessitating distillation and transfer of this specialized knowledge from the fine-tuned base model to a different pre-trained model. We present TuneShift-KD, a novel approach that automatically distills specialized knowledge from a fine-tuned model to a target model using only a few examples representative of the specialized information. Our key insight is that specialized knowledge can be identified through perplexity differences between base and fine-tuned models: prompts where the fine-tuned model responds confidently (low perplexity), but the base model struggles (high perplexity), indicate queries corresponding to the specialized knowledge learned by the fine-tuned model. TuneShift-KD leverages this insight to create a synthetic training dataset to transfer the specialized knowledge. Using an iterative process, TuneShift-KD generates more prompts similar to those that generated responses with specialized knowledge. TuneShift-KD does not require training discriminators or access to training datasets. It is an automated approach that only requires the initial fine-tuned and base models and a few representative prompts. Our experiments demonstrate that models fine-tuned using TuneShift-KD achieve higher accuracy than prior approaches, enabling ease of deployment and more effective transfer of the specialized knowledge.