Regularized Online RLHF with Generalized Bilinear Preferences
作者: Junghyun Lee, Minju Hong, Kwang-Sung Jun, Chulhee Yun, Se-Young Yun
分类: cs.LG, stat.ML
发布日期: 2026-02-26
备注: 43 pages, 1 table
💡 一句话要点
提出广义双线性偏好模型以解决在线RLHF中的纳什均衡问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线强化学习 偏好建模 广义双线性模型 纳什均衡 强凸正则化 高维数据 遗憾分析
📋 核心要点
- 现有方法在处理具有一般偏好的在线RLHF时面临挑战,尤其是在识别纳什均衡方面的不足。
- 论文提出了广义双线性偏好模型(GBPM),通过低秩斜对称矩阵捕捉复杂的偏好关系,并引入强凸正则化器进行学习。
- 通过贪婪采样和探索后承诺两种算法,论文实现了在高维情况下的统计有效遗憾界限,显著提升了性能。
📝 摘要(中文)
本文考虑了具有一般偏好的上下文在线RLHF问题,目标是识别纳什均衡。我们采用广义双线性偏好模型(GBPM)来捕捉潜在的非传递性偏好,利用低秩、斜对称矩阵。我们研究了任何强凸正则化器下的一般偏好学习,超越了以往仅限于反KL正则化的研究。核心分析是证明贪婪策略的对偶间隙受估计误差的平方限制,这一结果仅源于强凸性和GBPM的斜对称性。基于这一洞察和特征多样性假设,我们通过两种简单算法建立了两个遗憾界限:贪婪采样算法实现了多对数、$e^{O(η)}$-自由的遗憾界限;探索后承诺算法则通过利用低秩结构实现了$ ext{poly}(d)$-自由的遗憾界限,这是在线RLHF在高维中的首次统计有效保证。
🔬 方法详解
问题定义:本文旨在解决上下文在线RLHF中的纳什均衡识别问题,现有方法在处理一般偏好时存在局限,尤其是在非传递性偏好的建模上。
核心思路:我们提出广义双线性偏好模型(GBPM),利用低秩和斜对称矩阵来捕捉复杂的偏好结构,并引入强凸正则化器以增强学习效果。
技术框架:整体架构包括偏好建模、策略学习和遗憾分析三个主要模块。首先,通过GBPM建模偏好,然后采用贪婪策略和探索后承诺策略进行学习,最后分析遗憾界限。
关键创新:最重要的创新在于证明了贪婪策略的对偶间隙与估计误差的平方之间的界限,这一结果依赖于GBPM的强凸性和斜对称性,突破了以往研究的限制。
关键设计:我们设计了适用于GBPM的损失函数,并在算法中引入了强凸正则化器的参数设置,确保了在高维情况下的统计有效性。
📊 实验亮点
实验结果表明,贪婪采样算法实现了多对数、$e^{O(η)}$-自由的遗憾界限,探索后承诺算法则达到了$ ext{poly}(d)$-自由的遗憾界限。这些结果在高维情况下展示了显著的性能提升,验证了所提方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括在线推荐系统、个性化广告投放和智能决策支持系统等。通过有效识别用户偏好并优化决策过程,能够显著提升用户体验和系统效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
We consider the problem of contextual online RLHF with general preferences, where the goal is to identify the Nash Equilibrium. We adopt the Generalized Bilinear Preference Model (GBPM) to capture potentially intransitive preferences via low-rank, skew-symmetric matrices. We investigate general preference learning with any strongly convex regularizer (where $η^{-1}$ is the regularization strength), generalizing beyond prior works limited to reverse KL-regularization. Central to our analysis is proving that the dual gap of the greedy policy is bounded by the square of the estimation error - a result derived solely from strong convexity and the skew-symmetricity of GBPM.Building on this insight and a feature diversity assumption, we establish two regret bounds via two simple algorithms: (1) Greedy Sampling achieves polylogarithmic, $e^{O(η)}$-free regret $\tilde{O}(ηd^4 (\log T)^2)$. (2) Explore-Then-Commit achieves $\mathrm{poly}(d)$-free regret $\tilde{O}(\sqrt{ηr T})$ by exploiting the low-rank structure; this is the first statistically efficient guarantee for online RLHF in high-dimensions.