Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets

📄 arXiv: 2405.18952v2 📥 PDF

作者: Peter Devine

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-29 (更新: 2024-06-01)


💡 一句话要点

提出重复排序法,提升AI反馈强化学习中偏好数据集质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI反馈 强化学习 大型语言模型 偏好学习 数据集质量

📋 核心要点

  1. 现有RLAIF方法依赖的评估模型(如GPT-4)排序结果可能不一致,影响模型训练效果。
  2. 提出重复排序方法,多次评估相同回复,仅使用排序一致的数据训练,提高数据集质量。
  3. 实验表明,该方法在多语言MT-Bench基准测试中优于标准训练方法,验证了其有效性。

📝 摘要(中文)

利用AI反馈进行强化学习(RLAIF)训练大型语言模型(LLMs)能使模型输出更贴合人类偏好。这需要一个评估模型对用户提示的多个候选回复进行排序。然而,诸如GPT-4等常用评估模型的排序结果可能不一致。我们提出了重复排序方法——对相同的回复进行多次评估,并且仅在那些排序结果一致的回复上进行训练。我们使用62种语言的2714个提示生成了来自7个顶级多语言LLM的回复,并让GPT-4对它们各自进行五次排序。在六种语言的MT-Bench聊天基准测试中,我们的方法优于在所有可用提示上进行训练的标准做法。我们的工作强调了RLAIF数据集生成中质量与数量之间的权衡,并提供了一种可叠加的策略来提高数据集和模型质量。

🔬 方法详解

问题定义:现有基于AI反馈的强化学习方法在训练大型语言模型时,依赖于评估模型对多个候选回复进行排序。然而,评估模型的排序结果可能存在不一致性,导致训练数据集质量下降,进而影响最终模型的性能。这种不一致性是现有方法的痛点。

核心思路:论文的核心思路是通过多次对相同的回复进行排序,并仅保留排序结果一致的样本进行训练,从而提高训练数据集的质量。这种方法基于一个假设:多次排序结果一致的样本更可靠,更能反映真实的偏好。

技术框架:整体流程如下:1. 使用多种多语言LLM对大量提示生成回复。2. 使用GPT-4等评估模型对每个回复进行多次(例如五次)排序。3. 筛选出多次排序结果一致的回复。4. 使用筛选后的高质量数据集进行RLAIF训练。

关键创新:最重要的技术创新点在于引入了“重复排序”的概念,并将其应用于RLAIF数据集的构建过程中。与传统方法直接使用所有排序结果不同,该方法通过筛选排序一致的样本,有效提高了数据集的质量。

关键设计:关键设计包括:1. 重复排序的次数:论文中使用了五次排序,但可以根据实际情况调整。2. 一致性判断标准:可以采用严格的一致性标准(所有排序结果完全相同),也可以采用宽松的标准(例如,允许一定比例的排序结果不同)。3. 评估模型的选择:论文中使用GPT-4作为评估模型,但也可以使用其他更强大的评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用重复排序方法训练的模型在多语言MT-Bench基准测试中优于使用所有可用提示训练的模型。这表明,通过提高数据集质量,可以有效提升模型的性能。具体提升幅度未知,但论文强调了质量与数量的权衡。

🎯 应用场景

该研究成果可应用于各种需要使用AI反馈进行强化学习的场景,例如对话系统、文本生成、代码生成等。通过提高训练数据集的质量,可以显著提升模型的性能和用户体验。此外,该方法还可以用于评估不同评估模型的可靠性,为选择合适的评估模型提供参考。

📄 摘要(原文)

Training Large Language Models (LLMs) with Reinforcement Learning from AI Feedback (RLAIF) aligns model outputs more closely with human preferences. This involves an evaluator model ranking multiple candidate responses to user prompts. However, the rankings from popular evaluator models such as GPT-4 can be inconsistent. We propose the Repeat Ranking method - where we evaluate the same responses multiple times and train only on those responses which are consistently ranked. Using 2,714 prompts in 62 languages, we generated responses from 7 top multilingual LLMs and had GPT-4 rank them five times each. Evaluating on MT-Bench chat benchmarks in six languages, our method outperformed the standard practice of training on all available prompts. Our work highlights the quality versus quantity trade-off in RLAIF dataset generation and offers a stackable strategy for enhancing dataset and thus model quality.