Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options
作者: Joongkyu Lee, Seouh-won Yi, Min-hwan Oh
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-10-21 (更新: 2025-11-11)
备注: Accepted at NeurIPS 2025
💡 一句话要点
提出M-AUPO算法以提升偏好强化学习的样本效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 偏好强化学习 多重选项 Plackett-Luce模型 样本效率 算法优化 排名反馈 决策系统
📋 核心要点
- 现有的偏好强化学习方法主要集中在成对比较上,忽视了多重选项的潜在优势,导致样本效率低下。
- 本文提出M-AUPO算法,利用Plackett-Luce模型对行动子集进行排名反馈,通过最大化平均不确定性来选择多个行动。
- 实验结果表明,M-AUPO在样本效率上显著优于现有方法,尤其是在较大子集的情况下,次优性间隙得到了有效改善。
📝 摘要(中文)
本文研究了在线偏好强化学习(PbRL),旨在提高样本效率。尽管已有理论研究关注PbRL在大型语言模型(LLMs)中的成功应用,但大多数研究仅限于成对比较。近期一些研究探讨了多重比较和排名反馈,但其性能保证在反馈长度增加时未能改善,甚至可能恶化。为填补这一空白,本文采用Plackett-Luce(PL)模型对行动子集进行排名反馈,并提出M-AUPO算法,通过最大化所提供子集内的平均不确定性来选择多个行动。我们证明M-AUPO的次优性间隙为$ ilde{O}igg(rac{d}{T} ext{sqrt}igg( extstyleigg extstylerac{1}{|S_t|}igg)igg)$,显示出较大子集直接提高性能,并且避免了对未知参数范数的指数依赖,这是以往研究的基本限制。
🔬 方法详解
问题定义:本文旨在解决偏好强化学习中仅依赖成对比较所导致的样本效率低下问题。现有方法在处理多重选项时,反馈长度增加反而可能导致性能下降。
核心思路:论文提出M-AUPO算法,通过引入Plackett-Luce模型来处理多个行动的排名反馈,旨在通过最大化所选子集的平均不确定性来提升样本效率。
技术框架:M-AUPO算法的整体架构包括选择行动子集、计算排名反馈以及更新策略三个主要模块。首先,从可选行动中选择一个子集,然后根据该子集的反馈进行排名,最后更新策略以提高未来的选择。
关键创新:M-AUPO的主要创新在于首次理论上证明了在使用排名反馈时,增大子集大小能够有效提升样本效率,且避免了对未知参数范数的指数依赖,这是以往研究的局限。
关键设计:在算法设计中,关键参数包括子集大小$|S_t|$和特征维度$d$,损失函数设计为最大化平均不确定性,确保算法在选择行动时能够充分利用反馈信息。算法的复杂度分析也表明,M-AUPO在样本效率上具有优势。
🖼️ 关键图片
📊 实验亮点
实验结果显示,M-AUPO算法在样本效率上显著优于现有的成对比较方法,次优性间隙达到了$ ilde{O}igg(rac{d}{T} ext{sqrt}igg( extstyleigg extstylerac{1}{|S_t|}igg)igg)$,且在子集大小增加时,性能提升明显,验证了理论分析的有效性。
🎯 应用场景
该研究的潜在应用领域包括推荐系统、自动驾驶和智能助手等场景,能够通过更高效的学习机制提升系统的决策能力。未来,M-AUPO算法可能在多种需要快速适应用户偏好的领域中发挥重要作用,推动个性化服务的发展。
📄 摘要(原文)
We study online preference-based reinforcement learning (PbRL) with the goal of improving sample efficiency. While a growing body of theoretical work has emerged-motivated by PbRL's recent empirical success, particularly in aligning large language models (LLMs)-most existing studies focus only on pairwise comparisons. A few recent works (Zhu et al., 2023, Mukherjee et al., 2024, Thekumparampil et al., 2024) have explored using multiple comparisons and ranking feedback, but their performance guarantees fail to improve-and can even deteriorate-as the feedback length increases, despite the richer information available. To address this gap, we adopt the Plackett-Luce (PL) model for ranking feedback over action subsets and propose M-AUPO, an algorithm that selects multiple actions by maximizing the average uncertainty within the offered subset. We prove that M-AUPO achieves a suboptimality gap of $\tilde{O}\left( \frac{d}{T} \sqrt{ \sum_{t=1}^T \frac{1}{|S_t|}} \right)$, where $T$ is the total number of rounds, $d$ is the feature dimension, and $|S_t|$ is the size of the subset at round $t$. This result shows that larger subsets directly lead to improved performance and, notably, the bound avoids the exponential dependence on the unknown parameter's norm, which was a fundamental limitation in most previous works. Moreover, we establish a near-matching lower bound of $Ω\left( \frac{d}{K \sqrt{T}} \right)$, where $K$ is the maximum subset size. To the best of our knowledge, this is the first theoretical result in PbRL with ranking feedback that explicitly shows improved sample efficiency as a function of the subset size.