The Perfect Blend: Redefining RLHF with Mixture of Judges

📄 arXiv: 2409.20370v1 📥 PDF

作者: Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng, Eric Han, Shaoliang Nie, Chen Zhu, Hejia Zhang, Wenxuan Zhou, Zhouhao Zeng, Yun He, Karishma Mandyam, Arya Talabzadeh, Madian Khabsa, Gabriel Cohen, Yuandong Tian, Hao Ma, Sinong Wang, Han Fang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-09-30

备注: submitted to conference


💡 一句话要点

提出基于混合评判器的约束生成策略优化(CGPO),提升RLHF在多任务学习中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 多任务学习 奖励利用 约束策略优化

📋 核心要点

  1. RLHF在多任务学习中面临奖励利用和多目标优化的挑战,需要手动调整奖励模型和数据组合的权重。
  2. 论文提出CGPO,核心是混合评判器(MoJ),通过约束策略优化识别RLHF的最佳混合,无需大量超参数调整。
  3. 实验表明,CGPO在AlpacaEval-2(通用聊天)、Arena-Hard(STEM与推理)等任务上显著优于PPO和DPO。

📝 摘要(中文)

本文提出了一种新的后训练范式,称为约束生成策略优化(CGPO),旨在解决基于人类反馈的强化学习(RLHF)在大语言模型(LLM)多任务学习(MTL)中面临的奖励利用和极端多目标优化问题。CGPO的核心是混合评判器(MoJ),它通过具有分层的低成本约束策略优化,以一种原则性的方式识别RLHF中的最佳混合。该方法具有强大的经验结果和理论保证,无需大量的超参数调整,并且可以即插即用地应用于常见的后训练流程。CGPO能够检测和缓解奖励利用行为,同时在极大量的目标中达到帕累托最优。实验结果表明,CGPO在通用聊天、STEM问题、指令跟随和编码等各种任务中显著优于标准RLHF算法(如PPO和DPO)。

🔬 方法详解

问题定义:RLHF在多任务学习中面临奖励利用(reward hacking)和极端多目标优化的问题。现有方法需要人工调整奖励模型和数据组合的权重,缺乏通用性和可扩展性,难以在多个冲突目标之间取得平衡。PPO等常用算法容易在编码等任务中出现严重的奖励利用现象。

核心思路:论文的核心思路是通过混合多个评判器(Mixture of Judges, MoJ)来更全面地评估模型的输出,并利用约束策略优化(Constrained Policy Optimization, CPO)来避免奖励利用。MoJ可以捕捉不同任务和目标的细微差别,CPO则确保在优化过程中满足预设的约束条件,从而避免模型过度追求单一奖励而牺牲其他方面的性能。

技术框架:CGPO包含以下主要阶段:1) 构建混合评判器(MoJ):收集多个预训练的奖励模型,每个模型关注不同的任务或目标。2) 分层采样:对数据进行分层采样,确保每个任务或目标都有足够的样本。3) 约束策略优化(CPO):使用CPO算法来优化生成策略,目标是在满足约束条件的前提下最大化MoJ的综合奖励。约束条件可以包括对特定任务的最低性能要求,或者对不同目标之间的平衡要求。4) 策略更新:根据CPO的优化结果更新生成策略。

关键创新:CGPO的关键创新在于将混合评判器与约束策略优化相结合,从而在多任务学习中实现更稳健和可控的RLHF。与传统的RLHF方法相比,CGPO能够更好地处理奖励利用问题,并在多个冲突目标之间取得更好的平衡。MoJ的设计允许模型学习不同评判器的优点,从而提高泛化能力。

关键设计:MoJ的构建方式至关重要,需要选择具有代表性和互补性的奖励模型。CPO的约束条件需要根据具体任务进行 carefully 设计,以确保模型在优化过程中不会偏离预期目标。论文中可能还涉及一些超参数的调整,例如CPO的学习率、约束条件的阈值等,这些参数的选择也会影响最终的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CGPO在多个任务上显著优于PPO和DPO等基线方法。在AlpacaEval-2(通用聊天)上,CGPO的性能提升了7.4%;在Arena-Hard(STEM与推理)上,性能提升了12.5%。此外,CGPO成功解决了PPO在编码基准测试中常见的奖励利用问题,表明其具有更强的鲁棒性和泛化能力。

🎯 应用场景

CGPO可应用于各种需要对LLM进行对齐和微调的场景,例如通用聊天机器人、智能助手、教育辅导、代码生成等。通过解决奖励利用和多目标优化问题,CGPO可以帮助LLM更好地满足用户的多样化需求,并避免产生有害或不符合预期的行为。该方法在医疗、金融等对安全性要求较高的领域也具有潜在的应用价值。

📄 摘要(原文)

Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.