Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
作者: Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-02 (更新: 2025-07-03)
💡 一句话要点
提出Skywork-Reward-V2,通过人机协同提升偏好数据质量,显著增强奖励模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 人机协同 偏好学习 大规模数据集 强化学习 人类反馈 数据管理
📋 核心要点
- 现有奖励模型在捕捉细致人类偏好方面存在不足,主要原因是偏好数据集的质量和规模受限。
- 论文提出人机协同的两阶段数据管理流程,结合人类高质量标注和AI大规模处理能力,构建高质量偏好数据集。
- Skywork-Reward-V2在多个基准测试中达到SOTA,验证了高质量偏好数据对提升奖励模型性能的重要性。
📝 摘要(中文)
尽管奖励模型(RMs)在基于人类反馈的强化学习(RLHF)中至关重要,但当前最先进的开放RMs在大多数现有评估基准上表现不佳,未能捕捉到细致复杂的人类偏好。即使采用先进训练技术的方法也未能产生有意义的性能提升。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、合成标记或缺乏严格的质量控制。为了应对这些挑战,我们提出了一个包含4000万个偏好对的大规模偏好数据集SynPref-40M。为了实现大规模数据管理,我们设计了一个人机协同的两阶段流程,利用人类标注质量和AI可扩展性的互补优势。在这个流程中,人类提供验证的标注,而大型语言模型在人类指导下执行自动管理。基于这种偏好混合进行训练,我们推出了Skywork-Reward-V2,一套参数范围从0.6B到8B的奖励模型,在SynPref-40M中精心策划的2600万个偏好对子集上进行训练。我们证明Skywork-Reward-V2在广泛的能力范围内具有通用性,包括与人类偏好对齐、客观正确性、安全性、对风格偏差的抵抗以及best-of-N缩放,在七个主要奖励模型基准上实现了最先进的性能。消融研究证实,我们方法的有效性不仅源于数据规模,还源于高质量的管理。Skywork-Reward-V2系列代表了开放奖励模型的重大进展,突出了现有偏好数据集的未开发潜力,并展示了人机管理协同如何释放显著更高的数据质量。
🔬 方法详解
问题定义:现有开放域奖励模型难以准确捕捉人类细微偏好,在多个评估基准上表现不佳。现有偏好数据集存在范围窄、合成数据比例高、缺乏严格质量控制等问题,严重制约了奖励模型的性能提升。
核心思路:通过构建大规模、高质量的偏好数据集来提升奖励模型的性能。核心在于设计人机协同的数据管理流程,充分利用人类标注的准确性和AI处理大规模数据的能力。
技术框架:整体框架包含两个阶段:第一阶段是人类验证标注,由专业标注人员对数据进行筛选和标注,保证数据质量;第二阶段是AI自动管理,利用大型语言模型在人类指导下对数据进行清洗、去重、扩充等操作,提高数据规模。最终,使用高质量的偏好数据训练奖励模型。
关键创新:创新点在于人机协同的数据管理流程。传统方法要么依赖全人工标注,成本高昂且难以扩展;要么依赖全自动标注,质量难以保证。本文提出的方法结合了两者的优点,既保证了数据质量,又实现了大规模数据管理。
关键设计:SynPref-40M数据集包含4000万个偏好对,从中选取2600万个高质量偏好对用于训练Skywork-Reward-V2。Skywork-Reward-V2包含一系列模型,参数规模从0.6B到8B不等。训练过程中,使用了标准的偏好学习损失函数,并针对不同规模的模型进行了超参数调整。
🖼️ 关键图片
📊 实验亮点
Skywork-Reward-V2在七个主要奖励模型基准测试中取得了最先进的性能,证明了其在人类偏好对齐、客观正确性、安全性和抵抗风格偏差等方面的优越性。消融实验表明,高质量数据管理对模型性能的提升至关重要,不仅数据规模重要,数据质量也同样重要。
🎯 应用场景
该研究成果可广泛应用于各种需要与人类偏好对齐的AI系统中,例如对话系统、内容推荐系统、自动驾驶等。高质量奖励模型能够更准确地评估AI生成的输出,从而引导AI系统更好地满足人类需求,提升用户体验。未来,该方法有望推动AI系统在安全性、可靠性和公平性等方面取得更大进展。
📄 摘要(原文)
Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often narrowly scoped, synthetically labeled, or lack rigorous quality control. To address these challenges, we present a large-scale preference dataset comprising 40 million preference pairs, named SynPref-40M. To enable data curation at scale, we design a human-AI synergistic two-stage pipeline that leverages the complementary strengths of human annotation quality and AI scalability. In this pipeline, humans provide verified annotations, while large language models perform automatic curation based on human guidance. Training on this preference mixture, we introduce Skywork-Reward-V2, a suite of eight reward models ranging from 0.6B to 8B parameters, trained on a carefully curated subset of 26 million preference pairs from SynPref-40M. We demonstrate that Skywork-Reward-V2 is versatile across a wide range of capabilities, including alignment with human preferences, objective correctness, safety, resistance to stylistic biases, and best-of-N scaling, achieving state-of-the-art performance across seven major reward model benchmarks. Ablation studies confirm that the effectiveness of our approach stems not only from data scale but also from high-quality curation. The Skywork-Reward-V2 series represents substantial progress in open reward models, highlighting the untapped potential of existing preference datasets and demonstrating how human-AI curation synergy can unlock significantly higher data quality.