Pareto-Optimal Learning from Preferences with Hidden Context

📄 arXiv: 2406.15599v2 📥 PDF

作者: Ryan Bahlous-Boldi, Li Ding, Lee Spector, Scott Niekum

分类: cs.LG, cs.AI

发布日期: 2024-06-21 (更新: 2025-02-07)


💡 一句话要点

提出POPL算法,解决多人群偏好下的强化学习对齐问题,实现帕累托最优

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 偏好学习 帕累托最优 多目标优化

📋 核心要点

  1. 现有RLHF方法在处理来自不同人群的偏好时,容易产生对某些群体不公平或次优的结果。
  2. POPL将不同群体偏好视为多个目标,寻求帕累托最优的策略,从而实现多元化对齐。
  3. 实验表明,POPL在多个任务中优于基线方法,能够有效满足不同群体的偏好,且无需群体标签。

📝 摘要(中文)

确保人工智能模型与人类价值观对齐对其安全性和功能至关重要。从人类反馈中进行强化学习(RLHF)利用人类偏好来实现这种对齐。然而,当偏好来自不同人群时,奖励的单一估计可能导致次优性能,或者对特定群体不公平。我们提出了帕累托最优偏好学习(POPL),它通过将不同的群体偏好构建为具有潜在权衡的目标,从而实现多元化对齐,旨在获得在偏好数据集上帕累托最优的策略。POPL利用词典选择,这是一个迭代过程,选择多样化和帕累托最优的解决方案。我们的理论和实证评估表明,POPL在学习奖励函数和策略集方面优于基线方法,有效地满足了不同群体的需求,而无需访问群体数量或成员标签。我们在无状态偏好学习设置、Minigrid RL领域、Metaworld机器人基准以及大型语言模型(LLM)微调上验证了POPL的性能。我们证明POPL还可以作为优化特定群体公平性概念的技术的基础,确保安全和公平的AI模型对齐。

🔬 方法详解

问题定义:论文旨在解决在存在多个具有不同偏好的人群时,如何利用强化学习从人类反馈中学习奖励函数和策略,使得模型能够公平且有效地服务于所有人群。现有方法通常采用单一奖励函数,这可能导致对某些人群的偏好被忽略或损害,从而产生不公平或次优的结果。

核心思路:论文的核心思路是将不同人群的偏好视为多个目标,并寻找在这些目标上达到帕累托最优的策略。这意味着不存在任何其他策略能够在不损害任何一个群体偏好的前提下,提升至少一个群体的偏好。通过寻找帕累托最优解,POPL旨在实现一种公平且高效的多元化对齐。

技术框架:POPL算法主要包含以下几个阶段:1) 从不同人群收集偏好数据;2) 将每个群体的偏好转化为一个独立的奖励函数;3) 使用词典选择(lexicase selection)算法,迭代地选择能够最大化不同群体奖励的策略;4) 最终得到一组帕累托最优的策略,每个策略都代表了一种在不同群体偏好之间的权衡。

关键创新:POPL的关键创新在于它将多人群偏好学习问题建模为一个多目标优化问题,并利用词典选择算法来寻找帕累托最优解。与传统的RLHF方法不同,POPL不需要预先知道群体的数量或成员标签,而是能够自动地发现和适应不同群体的偏好。

关键设计:POPL使用词典选择作为其核心选择机制。在每一代中,算法首先随机选择一个训练样本(例如,一个状态-动作对),然后选择在该样本上表现最好的个体(策略)。这个过程重复多次,直到选择出足够数量的个体。这种选择方法倾向于选择多样化的个体,从而有助于找到帕累托最优解。此外,POPL可以与各种强化学习算法结合使用,例如Q-learning或策略梯度方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,POPL在无状态偏好学习、Minigrid RL、Metaworld机器人和LLM微调等多个任务中,均优于基线方法。POPL能够学习到一组奖励函数和策略,有效地满足不同群体的偏好,且无需访问群体数量或成员标签。在某些任务中,POPL能够显著提升弱势群体的性能,从而提高整体公平性。

🎯 应用场景

POPL算法可应用于各种需要考虑多方利益的场景,例如推荐系统(平衡不同用户群体的偏好)、自动驾驶(兼顾不同乘客的安全和舒适度)、医疗决策(考虑不同患者的需求和价值观)等。该研究有助于开发更公平、更安全、更可靠的人工智能系统,提升用户满意度和信任度。

📄 摘要(原文)

Ensuring AI models align with human values is essential for their safety and functionality. Reinforcement learning from human feedback (RLHF) leverages human preferences to achieve this alignment. However, when preferences are sourced from diverse populations, point estimates of reward can result in suboptimal performance or be unfair to specific groups. We propose Pareto Optimal Preference Learning (POPL), which enables pluralistic alignment by framing discrepant group preferences as objectives with potential trade-offs, aiming for policies that are Pareto-optimal on the preference dataset. POPL utilizes lexicase selection, an iterative process that selects diverse and Pareto-optimal solutions. Our theoretical and empirical evaluations demonstrate that POPL surpasses baseline methods in learning sets of reward functions and policies, effectively catering to distinct groups without access to group numbers or membership labels. We verify the performance of POPL on a stateless preference learning setting, a Minigrid RL domain, Metaworld robotics benchmarks, as well as large language model (LLM) fine-tuning. We illustrate that POPL can also serve as a foundation for techniques optimizing specific notions of group fairness, ensuring safe and equitable AI model alignment.