Learning a Pessimistic Reward Model in RLHF
作者: Yinglun Xu, Hangoo Kang, Tarun Suresh, Yuxuan Wan, Gagandeep Singh
分类: cs.LG
发布日期: 2025-05-26
💡 一句话要点
提出PET悲观奖励模型微调方法,提升RLHF中奖励模型的鲁棒性,抵抗奖励篡改。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 人类反馈 奖励模型 奖励篡改 悲观学习
📋 核心要点
- 传统RLHF方法依赖KL散度正则化来缓解奖励篡改,但效果有限,且限制了策略探索。
- PET方法通过微调得到悲观奖励模型,使智能体在优化过程中避免奖励篡改,无需正则化。
- 实验表明,PET方法可以在TL;DR数据集上学习高质量策略,且策略的KL散度较高,性能优异。
📝 摘要(中文)
本研究提出了一种新的悲观奖励微调方法PET,旨在学习一个对离线强化学习中的奖励篡改具有鲁棒性的悲观奖励模型。传统的RLHF奖励建模技术训练一个不完善的奖励模型,KL散度正则化在优化策略时起着缓解奖励篡改的关键作用。这种基于直觉的方法仍然受到奖励篡改的影响,并且在学习过程中排除了与数据集分布具有较大KL散度的策略。相反,我们表明,当在通过PET微调的悲观奖励模型上优化策略时,可以防止奖励篡改,而无需依赖任何正则化。我们在标准的TL;DR摘要数据集上测试了我们的方法。我们发现,可以在我们的悲观奖励模型上学习高质量的策略,而无需使用任何正则化。这种策略与数据集分布具有很高的KL散度,同时在实践中具有很高的性能。总而言之,我们的工作表明了学习悲观奖励模型以抵抗奖励篡改的可行性。智能体可以贪婪地搜索具有高悲观奖励的策略,而不会受到奖励篡改的影响。
🔬 方法详解
问题定义:在离线RLHF中,奖励模型容易被智能体利用,产生奖励篡改现象。现有的方法依赖于KL散度正则化来约束策略,防止其偏离数据集分布过远,但这种方法效果有限,并且限制了策略的探索空间。因此,如何学习一个对奖励篡改具有鲁棒性的奖励模型是一个关键问题。
核心思路:论文的核心思路是学习一个悲观的奖励模型。这个模型对未探索或不确定的状态给予较低的奖励估计,从而引导智能体探索更安全、更可靠的策略。通过这种方式,即使智能体贪婪地追求高奖励,也不会因为奖励模型的偏差而陷入奖励篡改的陷阱。
技术框架:PET方法主要包含以下几个阶段:1)使用人类反馈数据训练一个初始的奖励模型;2)使用PET算法对奖励模型进行微调,使其成为一个悲观的奖励模型;3)使用强化学习算法,在悲观奖励模型上优化策略,得到最终的策略。整个流程无需额外的正则化项。
关键创新:PET方法的关键创新在于它直接学习一个悲观的奖励模型,而不是通过正则化来约束策略。这种方法更加直接有效,可以更好地防止奖励篡改,并且允许智能体探索更广阔的策略空间。与现有方法相比,PET方法不需要手动调整正则化系数,更加易于使用。
关键设计:PET算法的具体实现细节未知,摘要中没有明确说明。但是,可以推测,PET算法可能涉及到对奖励模型输出的奖励值进行调整,使其对不确定性较高的状态给予更低的奖励估计。具体的损失函数和网络结构等细节需要在论文正文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用PET方法学习的悲观奖励模型可以有效地防止奖励篡改,并且可以在TL;DR摘要数据集上学习到高质量的策略。与传统的RLHF方法相比,PET方法无需使用任何正则化,并且可以获得更高的性能。更重要的是,PET方法学习到的策略与数据集分布具有较高的KL散度,表明该方法可以有效地探索更广阔的策略空间。
🎯 应用场景
该研究成果可应用于各种需要从人类反馈中学习的强化学习任务,例如对话生成、文本摘要、代码生成等。通过学习一个鲁棒的奖励模型,可以提高智能体的安全性和可靠性,避免产生有害或不符合人类价值观的行为。该方法在人机协作领域具有重要的应用价值。
📄 摘要(原文)
This work proposes `PET', a novel pessimistic reward fine-tuning method, to learn a pessimistic reward model robust against reward hacking in offline reinforcement learning from human feedback (RLHF). Traditional reward modeling techniques in RLHF train an imperfect reward model, on which a KL regularization plays a pivotal role in mitigating reward hacking when optimizing a policy. Such an intuition-based method still suffers from reward hacking, and the policies with large KL divergence from the dataset distribution are excluded during learning. In contrast, we show that when optimizing a policy on a pessimistic reward model fine-tuned through PET, reward hacking can be prevented without relying on any regularization. We test our methods on the standard TL;DR summarization dataset. We find that one can learn a high-quality policy on our pessimistic reward without using any regularization. Such a policy has a high KL divergence from the dataset distribution while having high performance in practice. In summary, our work shows the feasibility of learning a pessimistic reward model against reward hacking. The agent can greedily search for the policy with a high pessimistic reward without suffering from reward hacking.