Policy Filtration for RLHF to Mitigate Noise in Reward Models

作者: Chuheng Zhang, Wei Shen, Li Zhao, Xuyun Zhang, Xiaolong Xu, Wanchun Dou, Jiang Bian

分类: cs.LG, cs.AI

发布日期: 2024-09-11 (更新: 2025-06-07)

备注: ICML2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出策略过滤PPO（PF-PPO）以提升RLHF中奖励模型的信噪比，优化代码生成和数学推理任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: RLHF 策略过滤 奖励模型 近端策略优化 代码生成 数学推理 信噪比 决定系数

📋 核心要点

RLHF依赖奖励模型，但奖励模型在复杂任务中存在不准确性，影响策略优化。
PF-PPO通过过滤奖励不可靠的样本，提高训练数据的信噪比，从而改善策略学习。
实验表明，PF-PPO在代码生成和数学推理任务上均取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种针对RLHF（Reinforcement Learning from Human Feedback）的策略过滤方法，旨在缓解奖励模型的不准确性问题。研究发现，奖励模型在不同奖励值的样本上的可靠性存在差异。因此，论文提出Policy Filtration for Proximal Policy Optimization (PF-PPO)，通过过滤掉奖励可能不可靠的样本，提高策略学习过程中的信噪比。为了选择合适的策略过滤策略，论文使用决定系数（R2）作为指标，评估过滤后的奖励与实际表现的相关性。实验结果表明，PF-PPO在代码生成和数学推理任务中均取得了显著的性能提升。在代码生成方面，PF-PPO在HumanEval、MBPP和LeetCode Contest（一个更具挑战性的基准）上达到了70亿参数模型的最佳性能。在数学推理方面，PF-PPO在使用不同奖励模型和基准（Ape210K和CMATH）时也表现出性能提升。

🔬 方法详解

问题定义：RLHF方法依赖于从人类反馈中学习的奖励模型来优化大型语言模型。然而，奖励模型本身可能存在误差，尤其是在需要复杂推理的任务中，奖励模型给出的评分可能不准确，导致策略学习受到噪声干扰。现有方法没有充分考虑奖励模型的可靠性差异，导致训练效率降低。

核心思路：论文的核心思路是，奖励模型的可靠性并非一成不变，而是与样本本身的特性相关。通过识别并过滤掉奖励可能不可靠的样本，可以提高训练数据的质量，从而改善策略学习的效果。这种策略过滤的目的是提高信号（真实奖励）与噪声（奖励模型误差）的比率。

技术框架：PF-PPO的整体框架基于Proximal Policy Optimization (PPO)。主要流程包括：1) 使用语言模型生成响应；2) 使用奖励模型对响应进行评分；3) 根据预定义的过滤策略，筛选掉一部分响应；4) 使用剩余的响应数据训练PPO策略。关键在于第三步的过滤策略，它决定了哪些样本被用于策略更新。

关键创新：PF-PPO的关键创新在于引入了策略过滤机制，根据奖励模型的可靠性动态调整训练数据。与传统的PPO方法不同，PF-PPO并非使用所有奖励模型给出的评分，而是有选择地使用，从而降低了噪声数据对策略学习的影响。此外，论文还提出了使用决定系数（R2）来评估不同过滤策略的有效性，指导策略选择。

关键设计：论文使用决定系数R2来评估过滤策略。R2衡量的是过滤后的奖励与实际表现之间的相关性，R2越高，说明过滤后的奖励越能反映真实性能。具体的过滤策略可以是基于奖励值的阈值，例如只保留奖励值高于某个阈值的样本。损失函数仍然是标准的PPO损失函数，但训练数据是经过过滤后的数据。

🖼️ 关键图片

📊 实验亮点

PF-PPO在代码生成任务中取得了显著的性能提升，在HumanEval上提升了7.9%，在MBPP上提升了0.7%，在更具挑战性的LeetCode Contest上提升了10.0%，均达到了70亿参数模型的最佳水平。此外，在数学推理任务中，PF-PPO在使用不同奖励模型和基准（Ape210K和CMATH）时也表现出性能提升，验证了该方法的通用性和有效性。

🎯 应用场景

该研究成果可应用于各种需要使用RLHF来优化语言模型的场景，例如代码生成、数学推理、对话生成等。通过提高奖励模型的信噪比，可以更有效地训练语言模型，使其生成更符合人类偏好和更高质量的输出。这项技术对于提升AI系统的性能和用户体验具有重要意义。

📄 摘要（原文）

While direct policy optimization methods exist, pioneering LLMs are fine-tuned with reinforcement learning from human feedback (RLHF) to generate better responses under the supervision of a reward model learned from preference data. One major challenge of RLHF is the inaccuracy of the intermediate reward model, especially in the tasks that requires complex reasoning for the reward model to score a response. We find that the reliability of the reward model varies across responses assigned with different rewards. This motivates us to filter the samples whose rewards may be unreliable to improve the signal-to-noise ratio during policy learning, resulting in Policy Filtration for Proximal Policy Optimization (PF-PPO). To choose a proper policy filtering strategy, we use the coefficient of determination (R2) between the rewards and actual scores on filtered samples as the metrics to help us find promising strategies since it measures how well the rewards filtered by PF-PPO indicate real performance. We provide extensive experiments to validate the effectiveness of PF-PPO in code generation and math reasoning tasks. In code generation, PF-PPO achieves the state-of-the-art performance of 7-billion-parameter models on HumanEval (+7.9%), MBPP (+0.7%), and LeetCode Contest (+10.0%) which is a more challenging benchmark created by us. In math reasoning, PF-PPO yields performance increase using different reward models and benchmarks (Ape210K and CMATH). Code is available on https://github.com/DtYXs/verl/tree/pf-ppo.

Policy Filtration for RLHF to Mitigate Noise in Reward Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理