Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
作者: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
分类: cs.LG
发布日期: 2025-03-28 (更新: 2025-04-02)
💡 一句话要点
针对RLHF中数据瓶颈,提出混合奖励与Prompt选择方法,提升模型性能与多样性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: RLHF 奖励利用 响应多样性 混合奖励系统 Prompt选择
📋 核心要点
- 现有RLHF研究忽略了prompt数据构建的重要性,导致奖励利用和响应多样性降低等问题。
- 提出混合奖励系统(RTV+GenRM)缓解奖励利用,并设计Pre-PPO prompt选择方法保持响应多样性。
- 实验表明,RTV对奖励利用抵抗力最强,且优先处理数学和编码任务能显著提升RLHF性能。
📝 摘要(中文)
本文研究了从人类反馈中强化学习(RLHF)中数据驱动的瓶颈,特别是奖励利用和响应多样性降低。为了缓解奖励利用,我们引入了一种混合奖励系统,该系统结合了推理任务验证器(RTV)和生成奖励模型(GenRM)。为了保持响应多样性并提高学习效率,我们提出了一种新的prompt选择方法,即Pre-PPO。此外,我们发现优先在RLHF训练的早期阶段处理数学和编码任务可以显著提高性能。在两种模型尺寸上的实验验证了我们方法的有效性和可扩展性。结果表明,RTV对奖励利用的抵抗力最强,其次是具有ground truth的GenRM,然后是具有SFT Best-of-N响应的GenRM。我们的策略能够快速捕捉到细微的任务特定区别,从而显著提高整体RLHF性能。这项工作强调了仔细构建数据的重要性,并提供了克服RLHF性能障碍的实用方法。
🔬 方法详解
问题定义:RLHF旨在使大型语言模型与人类偏好对齐,但现有方法往往侧重于算法改进,忽略了prompt数据构建的重要性。这导致两个主要问题:一是奖励利用(reward hacking),模型学会利用奖励函数的漏洞而非真正理解任务;二是响应多样性降低,模型倾向于生成相似的、高奖励的回复,丧失了创造性和泛化能力。
核心思路:本文的核心思路是通过更精细的奖励机制和prompt选择策略来解决RLHF中的数据瓶颈。具体来说,通过混合奖励系统来防止模型过度依赖单一奖励来源,并利用prompt选择方法来鼓励模型探索更多样化的响应空间。
技术框架:整体框架包括三个主要部分:1) 混合奖励系统,结合推理任务验证器(RTV)和生成奖励模型(GenRM);2) Pre-PPO prompt选择方法,用于在PPO训练前选择更有效的prompt;3) 任务优先级调整,优先处理数学和编码任务。RTV基于规则或外部工具验证模型输出的正确性,GenRM则学习人类偏好,两者结合可以提供更鲁棒的奖励信号。Pre-PPO通过评估prompt在SFT模型上的表现来选择更有可能产生多样化响应的prompt。
关键创新:最重要的创新点在于混合奖励系统和Pre-PPO prompt选择方法的结合。混合奖励系统通过结合基于规则的验证和基于学习的奖励,有效缓解了奖励利用问题。Pre-PPO prompt选择方法则在PPO训练前就优化了prompt分布,提高了训练效率和响应多样性。
关键设计:RTV的具体实现依赖于任务类型,例如,对于数学题可以使用计算器验证答案,对于代码生成可以使用编译器验证代码的正确性。GenRM可以使用SFT模型的Best-of-N样本进行训练,以提高奖励模型的准确性。Pre-PPO通过计算prompt在SFT模型上的困惑度(perplexity)或生成响应的相似度来评估prompt的质量,并选择困惑度高或相似度低的prompt。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTV对奖励利用的抵抗力最强,优于GenRM。通过优先处理数学和编码任务,可以显著提高RLHF性能。此外,Pre-PPO prompt选择方法能够有效提高响应多样性。这些结果验证了论文提出的方法的有效性和可扩展性。
🎯 应用场景
该研究成果可应用于各种需要通过人类反馈来优化的大型语言模型应用场景,例如对话系统、文本生成、代码生成等。通过缓解奖励利用和提高响应多样性,可以提升模型的可靠性、创造性和用户体验。此外,该研究提出的数据构建方法也为其他RLHF研究提供了有益的参考。
📄 摘要(原文)
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning large language models with human preferences. While recent research has focused on algorithmic improvements, the importance of prompt-data construction has been overlooked. This paper addresses this gap by exploring data-driven bottlenecks in RLHF performance scaling, particularly reward hacking and decreasing response diversity. We introduce a hybrid reward system combining reasoning task verifiers (RTV) and a generative reward model (GenRM) to mitigate reward hacking. We also propose a novel prompt-selection method, Pre-PPO, to maintain response diversity and enhance learning effectiveness. Additionally, we find that prioritizing mathematical and coding tasks early in RLHF training significantly improves performance. Experiments across two model sizes validate our methods' effectiveness and scalability. Results show that RTV is most resistant to reward hacking, followed by GenRM with ground truth, and then GenRM with SFT Best-of-N responses. Our strategies enable rapid capture of subtle task-specific distinctions, leading to substantial improvements in overall RLHF performance. This work highlights the importance of careful data construction and provides practical methods to overcome performance barriers in RLHF.