Improving Reward Models with Synthetic Critiques

📄 arXiv: 2405.20850v2 📥 PDF

作者: Zihuiwen Ye, Fraser Greenlee-Scott, Max Bartolo, Phil Blunsom, Jon Ander Campos, Matthias Gallé

分类: cs.CL

发布日期: 2024-05-31 (更新: 2024-10-18)


💡 一句话要点

提出基于合成评论的奖励模型训练方法,提升数据效率与泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 合成评论 语言模型对齐 强化学习 自然语言生成

📋 核心要点

  1. 现有奖励模型训练依赖大量人工标注数据,成本高昂且易过拟合。
  2. 利用大型语言模型生成合成评论,从指令遵循、正确性、风格等多方面提供反馈。
  3. 实验表明,该方法提升了奖励模型的性能、数据效率、可解释性和鲁棒性。

📝 摘要(中文)

奖励模型(RM)在通过人类反馈强化学习对齐语言模型中起着关键作用。RM的训练旨在预测反映人类偏好的分数,这需要大量的时间和人力成本进行人工标注。此外,RM往往会快速过拟合训练集中的表面特征,从而阻碍其在新分布上的泛化性能。我们提出了一种新颖的方法,使用大型语言模型生成的合成自然语言评论来提供额外的反馈,评估诸如指令遵循、正确性和风格等方面。这为RM评估和评分提供了更丰富的信号和更鲁棒的特征。我们证明,高质量的评论提高了从不同预训练模型初始化的RM的性能和数据效率,减少了对昂贵的人工标注的依赖。此外,结合评论还提高了RM训练的可解释性和鲁棒性。

🔬 方法详解

问题定义:奖励模型训练需要大量人工标注数据,成本高昂。此外,奖励模型容易过拟合训练数据中的表面特征,导致泛化能力差,难以在新分布上表现良好。因此,如何降低对人工标注数据的依赖,并提升奖励模型的泛化能力是一个关键问题。

核心思路:利用大型语言模型(LLM)生成对模型输出的合成评论,这些评论从多个维度(如指令遵循、正确性、风格等)提供反馈,从而为奖励模型提供更丰富、更鲁棒的训练信号。通过引入合成评论,可以减少对人工标注数据的依赖,并提高奖励模型的泛化能力。

技术框架:该方法的核心是利用一个预训练的LLM作为评论生成器。首先,将输入文本和模型生成的输出提供给LLM,LLM生成对该输出的自然语言评论。然后,将这些评论与原始输入文本和模型输出一起用于训练奖励模型。奖励模型的目标是预测一个分数,该分数反映了人类对模型输出的偏好,同时也要与LLM生成的评论保持一致。整个流程可以看作是利用LLM的知识来指导奖励模型的学习。

关键创新:该方法的核心创新在于利用LLM生成合成评论来增强奖励模型的训练。与传统的仅依赖人工标注数据的方法相比,该方法可以提供更丰富、更细粒度的反馈信号,从而提高奖励模型的性能和泛化能力。此外,合成评论还可以用于提高奖励模型的可解释性,因为可以分析LLM生成的评论来了解奖励模型是如何做出决策的。

关键设计:关键设计包括如何选择合适的LLM作为评论生成器,以及如何设计损失函数来鼓励奖励模型与LLM生成的评论保持一致。论文中可能使用了特定的prompt工程技术来引导LLM生成高质量的评论。此外,损失函数的设计可能包括一个正则化项,以防止奖励模型过拟合训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用合成评论训练的奖励模型在多个基准测试中取得了显著的性能提升。与仅使用人工标注数据训练的奖励模型相比,该方法在数据效率方面也有显著提高,可以在更少的数据上达到更高的性能。此外,实验还表明,该方法可以提高奖励模型的可解释性和鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要奖励模型对齐语言模型的场景,例如对话系统、文本生成、代码生成等。通过降低对人工标注数据的依赖,可以加速这些应用的开发和部署。此外,该方法还可以用于提高奖励模型的可解释性和鲁棒性,从而使其在实际应用中更加可靠。

📄 摘要(原文)

Reward models (RMs) play a critical role in aligning language models through the process of reinforcement learning from human feedback. RMs are trained to predict a score reflecting human preference, which requires significant time and cost for human annotation. Additionally, RMs tend to quickly overfit on superficial features in the training set, hindering their generalization performance on unseen distributions. We propose a novel approach using synthetic natural language critiques generated by large language models to provide additional feedback, evaluating aspects such as instruction following, correctness, and style. This offers richer signals and more robust features for RMs to assess and score on. We demonstrate that high-quality critiques improve the performance and data efficiency of RMs initialized from different pretrained models, reducing the reliance on costly human annotations. Furthermore, incorporating critiques improves both the interpretability and robustness of RM training.