Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

📄 arXiv: 2407.02119v2 📥 PDF

作者: Yifang Chen, Shuohang Wang, Ziyi Yang, Hiteshi Sharma, Nikos Karampatziakis, Donghan Yu, Kevin Jamieson, Simon Shaolei Du, Yelong Shen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-07-02 (更新: 2024-07-09)


💡 一句话要点

提出基于在线策略和主动学习的低成本代理奖励模型构建方法,降低人机反馈强化学习的标注成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机反馈强化学习 奖励模型 主动学习 在线策略 低成本学习

📋 核心要点

  1. 现有RLHF方法依赖大量人工标注数据,成本高昂,尤其是在线学习场景中,需要频繁向专家查询。
  2. 论文提出在线策略查询和主动学习相结合的方法,构建低成本的代理奖励模型,减少对专家标注数据的需求。
  3. 实验表明,该方法在少量专家查询下,能有效提升模型性能,例如使用DPO在多个基准测试上获得显著改进。

📝 摘要(中文)

人机反馈强化学习(RLHF)已广泛应用于大型语言模型流程中,但受限于人工标注偏好数据的规模。传统方法依赖离线偏好数据集,而新方法转向在线设置,学习器利用少量标注种子数据和大量未标注提示,通过自生成响应和高质量奖励/偏好反馈迭代构建新的偏好数据。然而,当前在线算法主要关注给定反馈预言机下的策略模型更新期间的偏好标注,导致专家查询成本高昂。本文首次探索了低成本的代理奖励预言机构建策略,旨在以极有限的标注数据和专家查询预算进一步标注偏好或奖励。该方法引入两个关键创新:(1)在线策略查询,避免种子数据中的OOD和不平衡问题;(2)主动学习,选择信息量最大的数据进行偏好查询。利用这些方法,我们使用最少的专家标注数据训练评估模型,从而有效地标注九倍以上的偏好对,用于进一步的RLHF训练。例如,我们的模型使用直接偏好优化(DPO)在AlpacaEval2、MMLU-5shot和MMLU-0shot上获得了约1%以上的平均改进,而查询成本仅为1.7K。该方法与其它基于直接专家查询的策略正交,因此可以与它们集成,以进一步降低查询成本。

🔬 方法详解

问题定义:现有RLHF方法,特别是基于在线学习的RLHF,在构建奖励模型时需要大量的人工标注数据,这导致了高昂的专家查询成本。种子数据的分布可能存在偏差(imbalance)和超出分布(OOD)的问题,进一步影响了奖励模型的训练效果。因此,如何以极低的专家查询成本构建高质量的奖励模型是本文要解决的核心问题。

核心思路:本文的核心思路是利用在线策略查询和主动学习相结合的方法,构建一个低成本的代理奖励模型。在线策略查询可以避免OOD和数据不平衡问题,而主动学习则可以选择信息量最大的数据进行标注,从而最大限度地利用有限的专家查询预算。通过代理奖励模型,可以自动标注大量的偏好数据,用于后续的RLHF训练。

技术框架:整体框架包含以下几个主要阶段:1. 种子数据收集:使用少量人工标注数据作为初始种子。2. 在线策略查询:根据当前策略生成新的数据样本,避免OOD问题。3. 主动学习选择:使用主动学习算法(如不确定性采样)选择信息量最大的样本进行标注。4. 代理奖励模型训练:使用标注后的数据训练代理奖励模型。5. RLHF训练:使用代理奖励模型标注的数据训练最终的策略模型。

关键创新:本文最重要的技术创新点在于将在线策略查询和主动学习相结合,用于低成本的代理奖励模型构建。与传统的离线数据标注方法相比,在线策略查询可以更好地适应当前策略,避免OOD问题。与随机采样相比,主动学习可以选择信息量最大的样本进行标注,从而提高标注效率。

关键设计:在在线策略查询中,需要设计合适的策略更新方法,以保证生成的数据样本具有多样性和代表性。在主动学习中,需要选择合适的不确定性度量指标,例如预测方差或信息熵,以评估样本的信息量。损失函数通常采用pairwise ranking loss,鼓励模型对人工标注的偏好关系进行正确排序。具体的网络结构取决于所使用的语言模型,例如可以使用Transformer结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在AlpacaEval2、MMLU-5shot和MMLU-0shot等多个基准测试上获得了显著的性能提升。例如,使用DPO算法,在仅使用1.7K专家查询成本的情况下,平均提升超过1%。这表明该方法能够以极低的成本构建高质量的代理奖励模型,并有效提升RLHF的训练效果。

🎯 应用场景

该研究成果可广泛应用于各种需要人机反馈的强化学习任务中,尤其是在大型语言模型的训练和对齐方面。通过降低人工标注成本,可以加速模型的迭代和优化,并使得RLHF技术更易于部署和应用。此外,该方法还可以应用于其他需要主动学习的场景,例如图像分类、目标检测等。

📄 摘要(原文)

Reinforcement learning with human feedback (RLHF), as a widely adopted approach in current large language model pipelines, is \textit{bottlenecked by the size of human preference data}. While traditional methods rely on offline preference dataset constructions, recent approaches have shifted towards online settings, where a learner uses a small amount of labeled seed data and a large pool of unlabeled prompts to iteratively construct new preference data through self-generated responses and high-quality reward/preference feedback. However, most current online algorithms still focus on preference labeling during policy model updating with given feedback oracles, which incurs significant expert query costs. \textit{We are the first to explore cost-effective proxy reward oracles construction strategies for further labeling preferences or rewards with extremely limited labeled data and expert query budgets}. Our approach introduces two key innovations: (1) on-policy query to avoid OOD and imbalance issues in seed data, and (2) active learning to select the most informative data for preference queries. Using these methods, we train a evaluation model with minimal expert-labeled data, which then effectively labels nine times more preference pairs for further RLHF training. For instance, our model using Direct Preference Optimization (DPO) gains around over 1% average improvement on AlpacaEval2, MMLU-5shot and MMLU-0shot, with only 1.7K query cost. Our methodology is orthogonal to other direct expert query-based strategies and therefore might be integrated with them to further reduce query costs.