HelpSteer2: Open-source dataset for training top-performing reward models
作者: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-06-12
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
发布HelpSteer2:用于训练高性能奖励模型的开源数据集
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 偏好数据集 大型语言模型对齐 开源数据集 SteerLM 多属性评分 Reward-Bench
📋 核心要点
- 现有开源偏好数据集已无法有效训练奖励模型,且从专有LLM提取偏好数据存在商业限制。
- HelpSteer2通过高质量标注和更高效的数据规模,提升奖励模型的训练效率和对齐效果。
- 实验表明,基于HelpSteer2训练的奖励模型在Reward-Bench上取得SOTA,并能有效对齐LLM。
📝 摘要(中文)
高质量的偏好数据集对于训练奖励模型至关重要,奖励模型能够有效地指导大型语言模型(LLM)生成符合人类偏好的高质量回复。随着LLM变得更强大和更好对齐,诸如Open Assistant、HH-RLHF和HelpSteer等许可宽松的偏好数据集需要更新,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对商业用途有限制。为了改进生成的回复和属性标注质量,我们发布了HelpSteer2,这是一个许可宽松的偏好数据集(CC-BY-4.0)。使用在我们内部基于HelpSteer2训练的强大基础模型,我们能够在Reward-Bench的主要数据集上获得SOTA分数(92.0%),优于截至2024年6月12日列出的当前开源和专有模型。值得注意的是,HelpSteer2仅包含一万个回复对,比现有的偏好数据集(例如,HH-RLHF)少一个数量级,这使得它对于训练奖励模型非常有效。我们广泛的实验表明,使用HelpSteer2训练的奖励模型在对齐LLM方面非常有效。特别是,我们提出了SteerLM 2.0,一种模型对齐方法,可以有效地利用我们的奖励模型预测的丰富的多属性分数。
🔬 方法详解
问题定义:现有开源偏好数据集,如Open Assistant和HH-RLHF,已无法满足训练高性能奖励模型的需求。同时,直接利用如GPT-4等专有LLM进行偏好数据蒸馏存在商业限制。因此,需要一个许可宽松、高质量且高效的偏好数据集,以提升奖励模型的训练效果和对齐能力。
核心思路:HelpSteer2的核心思路是构建一个高质量、小规模的偏好数据集,通过精心设计的数据收集和标注流程,保证数据的质量和多样性。同时,利用强大的内部基础模型进行训练,以获得更好的奖励模型性能。这种设计旨在克服现有数据集规模大但质量参差不齐,以及专有数据商业限制的问题。
技术框架:HelpSteer2数据集的构建流程包括数据收集、数据标注和数据验证三个主要阶段。数据收集阶段旨在获取多样化的回复对,数据标注阶段则由人工标注员对回复对进行偏好排序和属性评分。数据验证阶段则通过多种质量控制手段,确保数据的准确性和一致性。基于HelpSteer2训练的奖励模型可以用于SteerLM 2.0,一种模型对齐方法,该方法利用奖励模型预测的多属性分数来指导LLM的生成过程。
关键创新:HelpSteer2的关键创新在于其高质量和高效率。相比于现有的大规模数据集,HelpSteer2仅包含一万个回复对,但通过精心设计的数据收集和标注流程,保证了数据的质量和多样性。这使得HelpSteer2能够以更小的规模实现更好的奖励模型性能。此外,HelpSteer2采用CC-BY-4.0许可,允许商业使用,克服了专有数据商业限制的问题。
关键设计:HelpSteer2数据集的标注过程注重多属性评分,标注员需要对回复的多个属性(如有用性、正确性、安全性等)进行评分,从而为奖励模型提供更丰富的训练信号。SteerLM 2.0则利用这些多属性评分来指导LLM的生成过程,通过调整不同属性的权重,实现对LLM生成行为的精细控制。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。
📊 实验亮点
HelpSteer2在Reward-Bench数据集上取得了92.0%的SOTA分数,超越了当前已知的开源和专有模型。值得注意的是,HelpSteer2仅使用了1万个回复对进行训练,远小于其他偏好数据集的规模,证明了其高效性。此外,SteerLM 2.0能够有效利用HelpSteer2训练的奖励模型,实现对LLM生成行为的精细控制。
🎯 应用场景
HelpSteer2可广泛应用于大型语言模型的对齐训练,尤其是在需要高质量、可控生成内容的场景下,例如智能客服、内容创作、教育辅导等。该数据集的开源许可降低了使用门槛,促进了相关研究的进展,并为商业应用提供了便利。未来,基于HelpSteer2训练的奖励模型有望进一步提升LLM的生成质量和安全性。
📄 摘要(原文)
High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner