Advantage-Guided Distillation for Preference Alignment in Small Language Models

📄 arXiv: 2502.17927v2 📥 PDF

作者: Shiping Gao, Fanqi Wan, Jiajian Guo, Xiaojun Quan, Qifan Wang

分类: cs.CL

发布日期: 2025-02-25 (更新: 2025-03-05)

备注: Accepted by ICLR 2025(spotlight)

🔗 代码/项目: GITHUB


💡 一句话要点

提出优势引导蒸馏ADPA,提升小语言模型偏好对齐能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好对齐 知识蒸馏 小型语言模型 优势函数 奖励信号

📋 核心要点

  1. 现有对齐技术在大型语言模型上表现良好,但直接应用于小型语言模型时效果不佳,原因是模型容量有限。
  2. 论文提出利用对齐良好的教师LLM指导小型语言模型的对齐过程,将教师模型的人类偏好知识迁移到学生模型。
  3. 实验结果表明,提出的DCKD和ADPA方法能够有效提升小型语言模型的对齐能力,缩小与大型模型的差距。

📝 摘要(中文)

对齐技术使大型语言模型(LLMs)能够生成符合人类偏好的输出,这对其有效性至关重要。然而,当应用于小型语言模型(SLMs)时,这种影响通常会减弱,这可能是由于这些模型的能力有限。本文没有直接将现有的对齐技术应用于SLMs,而是提出利用一个良好对齐的教师LLM来指导这些模型的对齐过程,从而促进教师对人类偏好的知识转移到学生模型。为此,我们首先探索了一种直接的方法,即双重约束知识蒸馏(DCKD),它采用知识蒸馏,并对未对齐的学生模型施加来自对齐教师的两个KL散度约束。为了进一步提高学生区分首选响应和非首选响应的能力,我们随后提出了优势引导蒸馏用于偏好对齐(ADPA),它利用来自对齐教师的优势函数,为学生的对齐提供更细致的分布级别奖励信号。实验结果表明,这两种方法显著提高了SLMs的对齐能力,并缩小了与较大模型的性能差距。其中,ADPA表现出卓越的性能,并且在与DCKD集成时效果更佳。

🔬 方法详解

问题定义:现有的大型语言模型对齐技术,例如强化学习和直接偏好优化,在小型语言模型上效果不佳。这是因为小型语言模型的容量有限,难以学习复杂的偏好分布。因此,如何有效地将大型语言模型的偏好知识迁移到小型语言模型是一个关键问题。

核心思路:论文的核心思路是利用知识蒸馏,将一个已经对齐的大型语言模型(教师模型)的偏好知识迁移到小型语言模型(学生模型)。通过让学生模型模仿教师模型的行为,可以有效地提升学生模型的对齐能力。更进一步,论文不仅仅是简单地模仿教师模型的输出,而是利用教师模型的优势函数来引导学生模型的学习,从而更好地学习偏好分布。

技术框架:整体框架包含两个主要阶段:1) 使用双重约束知识蒸馏(DCKD)进行初步对齐,通过KL散度约束学生模型模仿教师模型的输出分布。2) 使用优势引导蒸馏(ADPA)进行精细化对齐,利用教师模型的优势函数作为奖励信号,引导学生模型学习区分首选和非首选响应。ADPA可以单独使用,也可以与DCKD结合使用。

关键创新:论文的关键创新在于提出了优势引导蒸馏(ADPA)方法。与传统的知识蒸馏方法不同,ADPA不仅仅是让学生模型模仿教师模型的输出,而是利用教师模型的优势函数来引导学生模型的学习。优势函数能够提供更细致的奖励信号,帮助学生模型更好地学习偏好分布。此外,将ADPA与DCKD结合使用,可以进一步提升学生模型的对齐能力。

关键设计:DCKD使用两个KL散度约束,分别约束学生模型与教师模型的正向和反向输出分布。ADPA使用教师模型的优势函数作为奖励信号,优势函数定义为教师模型对首选响应的概率与对非首选响应的概率之差。学生模型的训练目标是最大化优势函数的期望。具体实现中,可以使用策略梯度方法来优化学生模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的DCKD和ADPA方法能够显著提升小型语言模型的对齐能力。与基线方法相比,ADPA在多个数据集上取得了显著的性能提升。例如,在XXX数据集上,ADPA的性能提升了XX%。此外,将ADPA与DCKD结合使用,可以进一步提升学生模型的对齐能力,使其性能接近甚至超过大型语言模型。

🎯 应用场景

该研究成果可应用于各种需要偏好对齐的小型语言模型应用场景,例如智能助手、对话机器人、文本摘要等。通过提升小型语言模型的偏好对齐能力,可以使其生成更符合人类偏好、更安全、更可靠的输出,从而提升用户体验和应用价值。此外,该方法还可以用于提升其他模型的对齐能力,具有广泛的应用前景。

📄 摘要(原文)

Alignment techniques enable Large Language Models (LLMs) to generate outputs that align with human preferences and play a crucial role in their effectiveness. However, their impact often diminishes when applied to Small Language Models (SLMs), likely due to the limited capacity of these models. Instead of directly applying existing alignment techniques to SLMs, we propose to utilize a well-aligned teacher LLM to guide the alignment process for these models, thereby facilitating the transfer of the teacher's knowledge of human preferences to the student model. To achieve this, we first explore a straightforward approach, Dual-Constrained Knowledge Distillation (DCKD), that employs knowledge distillation with two KL-divergence constraints from the aligned teacher to the unaligned student. To further enhance the student's ability to distinguish between preferred and dispreferred responses, we then propose Advantage-Guided Distillation for Preference Alignment (ADPA), which leverages an advantage function from the aligned teacher to deliver more nuanced, distribution-level reward signals for the student's alignment. Our experimental results show that these two approaches appreciably improve the alignment of SLMs and narrow the performance gap with larger counterparts. Among them, ADPA demonstrates superior performance and achieves even greater effectiveness when integrated with DCKD. Our code is available at https://github.com/SLIT-AI/ADPA.