Strategyproof Reinforcement Learning from Human Feedback

📄 arXiv: 2503.09561v2 📥 PDF

作者: Thomas Kleine Buening, Jiarui Gan, Debmalya Mandal, Marta Kwiatkowska

分类: cs.LG

发布日期: 2025-03-12 (更新: 2025-10-16)

备注: To appear at NeurIPS 2025


💡 一句话要点

提出Pessimistic Median of MLEs算法,解决RLHF中策略性反馈导致的策略偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类反馈 策略免疫 机制设计 社会福利

📋 核心要点

  1. 现有RLHF算法易受策略性反馈影响,导致策略与社会福利目标不一致,即使单个恶意标签员也能造成严重偏差。
  2. 提出Pessimistic Median of MLEs算法,通过悲观估计和中值聚合,在策略免疫性和策略对齐性之间取得平衡。
  3. 理论证明该算法在一定条件下具有近似策略免疫性,并能随着数据增多收敛到最优策略,适用于bandit和MDP环境。

📝 摘要(中文)

本文研究了在多标签员可能策略性地错误报告反馈以引导学习策略向其自身偏好方向发展的环境下的基于人类反馈的强化学习(RLHF)。我们证明了现有的RLHF算法,包括最近的多元方法,都不是策略免疫的,并且即使是单个策略性标签员也可能导致与社会福利的任意大的偏差。此外,我们证明了在最坏的情况下,任何策略免疫的RLHF算法的性能必须比最优策略差$k$倍,其中$k$是标签员的数量。这表明在激励对齐(确保标签员如实报告)和策略对齐(最大化社会福利)之间存在根本性的权衡。为了解决这个问题,我们提出了Pessimistic Median of MLEs算法,在适当的策略覆盖假设下,该算法是近似策略免疫的,并且随着标签员和样本数量的增加,收敛到最优策略。我们的结果适用于上下文bandit和马尔可夫决策过程。

🔬 方法详解

问题定义:论文旨在解决在多个人工标注者参与的RLHF(Reinforcement Learning from Human Feedback)场景中,标注者可能出于自身利益策略性地提供虚假反馈,从而导致最终学习到的策略与社会整体福利目标不一致的问题。现有RLHF算法,即使是考虑了标注者差异的多元方法,也无法保证策略免疫性,容易被恶意标注者操纵。

核心思路:论文的核心思路是设计一种策略免疫的RLHF算法,使得标注者即使策略性地提供虚假反馈,也无法显著影响最终学习到的策略,从而保证策略与社会福利目标的一致性。为了实现这一目标,论文提出了Pessimistic Median of MLEs算法,该算法基于悲观估计和中值聚合的思想。

技术框架:Pessimistic Median of MLEs算法的整体框架如下:1. 每个标注者根据自己的偏好提供反馈数据。2. 对于每个标注者,使用最大似然估计(MLE)方法估计其偏好的策略。3. 对每个标注者的策略估计进行悲观化处理,即降低其置信度。4. 对所有标注者的悲观化策略估计进行中值聚合,得到最终的策略。

关键创新:该算法的关键创新在于悲观化处理和中值聚合。悲观化处理可以降低恶意标注者的影响,防止其通过提供虚假反馈来操纵策略。中值聚合可以进一步降低异常值的影响,提高算法的鲁棒性。

关键设计:算法的关键设计包括:1. 如何进行悲观化处理,例如使用置信区间下界作为悲观估计。2. 如何选择合适的中值聚合方法,例如直接取中位数或加权中位数。3. 如何设置策略覆盖假设,保证算法的收敛性。

📊 实验亮点

论文证明了现有RLHF算法不具备策略免疫性,并给出了策略免疫性与策略对齐性之间的理论权衡。提出的Pessimistic Median of MLEs算法在一定条件下具有近似策略免疫性,并能随着数据增多收敛到最优策略。实验结果验证了该算法的有效性,表明其在策略性反馈环境下优于现有算法。

🎯 应用场景

该研究成果可应用于需要多人参与反馈的强化学习场景,例如机器人控制、游戏AI、推荐系统等。通过保证策略免疫性,可以避免因恶意反馈导致的策略偏差,提高系统的公平性和可靠性。未来可进一步研究如何降低算法的计算复杂度,提高其在实际应用中的效率。

📄 摘要(原文)

We study Reinforcement Learning from Human Feedback (RLHF) in settings where multiple labelers may strategically misreport feedback to steer the learned policy toward their own preferences. We show that existing RLHF algorithms, including recent pluralistic methods, are not strategyproof, and that even a single strategic labeler can cause arbitrarily large misalignment with social welfare. Moreover, we prove that, in the worst case, any strategyproof RLHF algorithm must perform $k$-times worse than the optimal policy, where $k$ is the number of labelers. This suggests a fundamental trade-off between incentive alignment (ensuring labelers report truthfully) and policy alignment (maximizing social welfare). To address this, we propose the Pessimistic Median of MLEs algorithm, which, under appropriate policy coverage assumptions, is approximately strategyproof and converges to the optimal policy as the number of labelers and samples increases. Our results apply to both contextual bandits and Markov decision processes.