Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models

📄 arXiv: 2502.14272v1 📥 PDF

作者: Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li, Xuming Hu

分类: cs.CL, cs.AI

发布日期: 2025-02-20

备注: Under review


💡 一句话要点

提出偏好对齐蒸馏(PAD)框架,提升小语言模型对人类偏好的捕捉能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好对齐 知识蒸馏 小语言模型 奖励函数 概率分布

📋 核心要点

  1. 现有蒸馏方法在建模LLM偏好知识时,忽略了响应差异程度,导致SLM难以捕捉细微偏好。
  2. PAD框架将教师偏好建模为概率分布,利用语言模型作为奖励函数,提供更细致的监督信号。
  3. 实验结果表明,PAD在多个基准测试中显著优于现有方法,甚至使学生模型超越教师模型。

📝 摘要(中文)

本文提出了一种偏好对齐蒸馏(PAD)框架,旨在提升小语言模型(SLM)对人类价值观的对齐能力。现有蒸馏方法通过比较成对的响应来建模教师大型语言模型(LLM)的偏好知识,忽略了响应之间差异的程度。这限制了学生SLM捕捉多个响应之间细微偏好的能力。PAD框架将教师的偏好知识建模为所有潜在偏好的概率分布,从而提供更细致的监督信号。PAD的核心思想是利用语言模型作为奖励函数,反映其内在偏好。PAD包含三个关键步骤:(1)使用高温采样生成多样化的响应;(2)计算教师和学生的奖励,构建其内在偏好;(3)训练学生的内在偏好分布,使其与教师的对齐。在四个主流对齐基准上的实验表明,PAD始终显著优于现有方法,在AlpacaEval 2和Arena-Hard上实现了超过20%的改进,表明与人类偏好更好地对齐。值得注意的是,在MT-Bench上,使用Gemma模型家族,由PAD训练的学生模型超过了其教师模型,进一步验证了PAD的有效性。

🔬 方法详解

问题定义:现有方法在将大型语言模型(LLM)的偏好知识蒸馏到小型语言模型(SLM)时,通常采用成对比较的方式,即判断哪个响应更好。这种方法忽略了不同响应之间的差异程度,例如,两个响应可能都很好,只是一个略好于另一个,或者两个响应都比较差,只是一个更差。这种粗粒度的偏好建模方式限制了SLM学习细微偏好的能力。

核心思路:PAD的核心思路是将教师LLM的偏好知识建模为一个概率分布,该分布表示了教师对于所有可能偏好的置信度。具体来说,PAD利用语言模型可以作为奖励函数的特性,通过计算教师和学生模型生成响应的奖励,来构建它们的内在偏好分布。然后,PAD训练学生模型的偏好分布,使其与教师模型的偏好分布对齐。这样,学生模型就可以学习到教师模型更细致的偏好知识。

技术框架:PAD框架包含三个主要步骤: 1. 响应采样:使用高温(high-temperature)采样策略,从教师和学生模型中生成多样化的响应。 2. 奖励计算:使用语言模型作为奖励函数,计算教师和学生模型生成的每个响应的奖励,从而构建它们的内在偏好分布。 3. 偏好对齐:训练学生模型的偏好分布,使其与教师模型的偏好分布对齐。这可以通过最小化两个分布之间的距离来实现,例如使用KL散度。

关键创新:PAD的关键创新在于将教师LLM的偏好知识建模为一个概率分布,而不是简单的成对比较结果。这种建模方式能够捕捉到更细致的偏好信息,从而使学生SLM能够更好地学习教师的偏好。此外,PAD利用语言模型作为奖励函数,简化了偏好建模的过程。

关键设计: * 温度系数:在响应采样阶段,使用较高的温度系数来增加生成响应的多样性。 * 奖励函数:使用预训练的语言模型作为奖励函数,例如GPT-3或InstructGPT。 * 损失函数:使用KL散度作为损失函数,用于衡量学生和教师偏好分布之间的距离。 * 优化器:使用AdamW优化器来训练学生模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PAD在AlpacaEval 2和Arena-Hard基准测试中实现了超过20%的性能提升,表明其与人类偏好更好地对齐。更令人印象深刻的是,在MT-Bench基准测试中,使用Gemma模型家族,由PAD训练的学生模型甚至超过了其教师模型,证明了PAD的有效性和潜力。

🎯 应用场景

PAD框架可应用于各种需要将大型语言模型的知识迁移到小型语言模型的场景,例如对话系统、文本生成、代码生成等。通过PAD,可以使小型语言模型更好地理解和遵循人类的偏好,从而生成更符合人类期望的响应。这有助于提高用户体验,并促进人机协作。

📄 摘要(原文)

Aligning small language models (SLMs) with human values typically involves distilling preference knowledge from large language models (LLMs). However, existing distillation methods model preference knowledge in teacher LLMs by comparing pairwise responses, overlooking the extent of difference between responses. This limitation hinders student SLMs from capturing the nuanced preferences for multiple responses. In this paper, we propose a Preference-Aligned Distillation (PAD) framework, which models teacher's preference knowledge as a probability distribution over all potential preferences, thereby providing more nuanced supervisory signals. Our insight in developing PAD is rooted in the demonstration that language models can serve as reward functions, reflecting their intrinsic preferences. Based on this, PAD comprises three key steps: (1) sampling diverse responses using high-temperature; (2) computing rewards for both teacher and student to construct their intrinsic preference; and (3) training the student's intrinsic preference distribution to align with the teacher's. Experiments on four mainstream alignment benchmarks demonstrate that PAD consistently and significantly outperforms existing approaches, achieving over 20\% improvement on AlpacaEval 2 and Arena-Hard, indicating superior alignment with human preferences. Notably, on MT-Bench, using the \textsc{Gemma} model family, the student trained by PAD surpasses its teacher, further validating the effectiveness of our PAD.