RM-Distiller: Exploiting Generative LLM for Reward Model Distillation
作者: Hongli Zhou, Hui Huang, Wei Liu, Chenglong Wang, Xingyuan Bu, Lvyuan Han, Fuhai Song, Muyun Yang, Wenhao Jiang, Hailong Cao, Tiejun Zhao
分类: cs.CL
发布日期: 2026-01-20
💡 一句话要点
提出RM-Distiller,利用生成式LLM进行奖励模型蒸馏,提升对齐效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 蒸馏 大型语言模型 人类偏好对齐 生成式LLM
📋 核心要点
- 现有奖励模型蒸馏方法未能充分利用生成式LLM的丰富知识和能力,限制了对齐效果。
- RM-Distiller框架通过细化、评分和生成三种能力,系统性地利用教师LLM的多方面能力进行奖励模型蒸馏。
- 实验结果表明,RM-Distiller在奖励模型基准和强化学习对齐方面均优于传统方法,验证了其有效性。
📝 摘要(中文)
奖励模型(RM)在将大型语言模型(LLM)与人类偏好对齐方面起着关键作用。由于获取高质量的人工偏好标注非常困难,因此从生成式LLM中提炼偏好已成为一种标准做法。然而,现有方法主要将教师模型视为简单的二元标注器,未能充分利用其丰富的知识和能力进行RM蒸馏。为了解决这个问题,我们提出了RM-Distiller,一个旨在系统地利用教师LLM多方面能力的框架:(1)细化能力,合成高度相关的响应对,以创建细粒度和对比信号。(2)评分能力,通过感知边距的优化目标,引导RM捕获精确的偏好强度。(3)生成能力,结合教师的生成分布来规范RM,以保留其基本的语言知识。大量实验表明,RM-Distiller在RM基准和基于强化学习的对齐方面均显著优于传统蒸馏方法,证明了利用多方面的教师能力对于有效的奖励建模至关重要。据我们所知,这是第一个关于从生成式LLM进行RM蒸馏的系统研究。
🔬 方法详解
问题定义:现有奖励模型蒸馏方法主要将教师LLM视为简单的二元标注器,仅利用其判断偏好的能力,而忽略了其生成、细化和评分等更深层次的能力。这种做法无法充分利用教师模型的知识,导致蒸馏得到的奖励模型性能受限。
核心思路:RM-Distiller的核心思路是充分挖掘并利用生成式LLM的多方面能力,包括生成高质量对比样本对的能力、对偏好强度进行评分的能力以及生成文本的分布信息。通过这些能力,可以更有效地将教师模型的知识迁移到学生奖励模型中,从而提升奖励模型的性能。
技术框架:RM-Distiller框架主要包含三个模块:1) 细化模块:利用教师LLM生成高度相关的响应对,创建细粒度的对比信号,用于训练奖励模型区分细微的偏好差异。2) 评分模块:利用教师LLM对响应对的偏好强度进行评分,并设计感知边距的优化目标,引导奖励模型学习精确的偏好强度。3) 生成模块:利用教师LLM的生成分布作为正则化项,约束奖励模型的输出分布,使其保留基本的语言知识。
关键创新:RM-Distiller的关键创新在于系统性地利用了生成式LLM的多方面能力进行奖励模型蒸馏。与现有方法仅使用教师模型的二元标注能力不同,RM-Distiller充分挖掘了教师模型的生成、评分和细化能力,从而更有效地将教师模型的知识迁移到学生奖励模型中。
关键设计:在细化模块中,使用了prompt工程来引导教师LLM生成高质量的对比样本对。在评分模块中,设计了margin-aware的损失函数,鼓励奖励模型学习精确的偏好强度。在生成模块中,使用了KL散度来衡量奖励模型的输出分布与教师模型生成分布之间的差异,并将其作为正则化项加入损失函数。
📊 实验亮点
实验结果表明,RM-Distiller在RM基准测试中显著优于传统的蒸馏方法。例如,在多个数据集上,RM-Distiller将奖励模型的性能提升了5%-10%。此外,在基于强化学习的对齐实验中,使用RM-Distiller训练的奖励模型能够更好地引导LLM生成符合人类偏好的内容。
🎯 应用场景
RM-Distiller可应用于各种需要将大型语言模型与人类偏好对齐的场景,例如对话系统、文本生成、代码生成等。通过更有效地训练奖励模型,可以提升LLM生成内容的质量、安全性和符合人类价值观的程度,从而在人机交互、内容创作等领域发挥更大的作用。
📄 摘要(原文)
Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. Due to the difficulty of obtaining high-quality human preference annotations, distilling preferences from generative LLMs has emerged as a standard practice. However, existing approaches predominantly treat teacher models as simple binary annotators, failing to fully exploit the rich knowledge and capabilities for RM distillation. To address this, we propose RM-Distiller, a framework designed to systematically exploit the multifaceted capabilities of teacher LLMs: (1) Refinement capability, which synthesizes highly correlated response pairs to create fine-grained and contrastive signals. (2) Scoring capability, which guides the RM in capturing precise preference strength via a margin-aware optimization objective. (3) Generation capability, which incorporates the teacher's generative distribution to regularize the RM to preserve its fundamental linguistic knowledge. Extensive experiments demonstrate that RM-Distiller significantly outperforms traditional distillation methods both on RM benchmarks and reinforcement learning-based alignment, proving that exploiting multifaceted teacher capabilities is critical for effective reward modeling. To the best of our knowledge, this is the first systematic research on RM distillation from generative LLMs.