Direct Preference Knowledge Distillation for Large Language Models
作者: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
分类: cs.CL
发布日期: 2024-06-28 (更新: 2025-04-07)
💡 一句话要点
提出直接偏好知识蒸馏(DPKD)方法,提升大语言模型蒸馏效率与精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大语言模型 偏好学习 隐式奖励 模型压缩
📋 核心要点
- 现有知识蒸馏方法在应用于大语言模型时,面临效率低下和KL散度不足以衡量模型能力等问题。
- 论文提出直接偏好知识蒸馏(DPKD)方法,利用分布散度表示偏好损失和隐式奖励,优化学生模型的输出。
- 实验结果表明,DPKD方法在输出响应精度和精确匹配率方面均优于基线方法,验证了其有效性。
📝 摘要(中文)
在大语言模型(LLM)领域,知识蒸馏(KD)是传递教师模型能力到学生模型的关键技术。然而,现有的KD方法在LLM蒸馏中面临效率和传统KL散度测量能力不足等局限和挑战。论文指出,LLM可以作为隐式奖励函数,作为KL散度的补充。为此,论文提出用于LLM的直接偏好知识蒸馏(DPKD)。DPKD利用分布散度来表示偏好损失和隐式奖励函数,将LLM的KD重新构建为两个阶段:首先优化包含隐式奖励和反向KL散度的目标,然后提高教师输出相对于学生输出的偏好概率。在参数范围从120M到13B的LLM的各种数据集上进行的实验和分析表明了DPKD方法的广泛适用性和有效性。同时,通过实验和理论分析证明了引入的隐式奖励和输出偏好在KD中的价值和有效性。DPKD方法在输出响应精度和精确匹配率方面均优于基线方法。代码和数据可在https://aka.ms/dpkd 获取。
🔬 方法详解
问题定义:现有知识蒸馏方法在应用于大语言模型时存在局限性。传统的KL散度作为衡量模型输出分布差异的指标,可能无法充分捕捉大语言模型复杂的生成偏好和能力。此外,蒸馏过程的效率也是一个挑战,尤其是在处理参数量巨大的LLM时。
核心思路:论文的核心思路是将大语言模型视为一个隐式的奖励函数,并利用它来指导学生模型的训练。通过引入偏好学习的概念,DPKD旨在使学生模型的输出更接近教师模型的偏好,而不仅仅是简单地模仿其输出分布。这种方法能够更有效地传递教师模型的知识,并提高学生模型的性能。
技术框架:DPKD方法包含两个主要阶段。第一阶段,优化一个包含隐式奖励和反向KL散度的目标函数,旨在使学生模型的输出分布接近教师模型,并获得一定的奖励。第二阶段,通过优化偏好概率,进一步提高学生模型输出与教师模型偏好的一致性。整体流程可以看作是先通过分布对齐进行粗略的知识传递,再通过偏好学习进行精细的调整。
关键创新:DPKD的关键创新在于引入了隐式奖励函数和偏好学习机制。与传统的基于KL散度的知识蒸馏方法不同,DPKD能够更有效地捕捉教师模型的生成偏好,并将其传递给学生模型。此外,将蒸馏过程分解为两个阶段,允许更灵活地控制知识传递的过程,并提高蒸馏效率。
关键设计:DPKD的关键设计包括:1) 使用分布散度来表示偏好损失和隐式奖励函数;2) 将知识蒸馏过程分解为两个阶段,分别优化分布对齐和偏好学习;3) 使用反向KL散度来避免学生模型过度拟合教师模型的输出。具体的损失函数设计和参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DPKD方法在多个数据集上均优于基线方法。具体而言,在输出响应精度和精确匹配率方面,DPKD均取得了显著提升。例如,在某个数据集上,DPKD的精确匹配率比基线方法提高了X%(具体数值请参考论文原文),验证了DPKD方法的有效性。
🎯 应用场景
DPKD方法可广泛应用于大语言模型的知识蒸馏,尤其是在资源受限的场景下,可以将大型教师模型的知识迁移到小型学生模型,从而降低部署成本并提高推理速度。该方法在对话系统、文本生成、机器翻译等领域具有潜在的应用价值,并能促进大语言模型在边缘设备上的部署。
📄 摘要(原文)
In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.