Regularized Online RLHF with Generalized Bilinear Preferences

📄 arXiv: 2602.23116 📥 PDF

作者: Junghyun Lee, Minju Hong, Kwang-Sung Jun, Chulhee Yun, Se-Young Yun

分类: cs.LG, stat.ML

发布日期: 2026-02-28


💡 一句话要点

提出广义双线性偏好模型以解决在线RLHF中的纳什均衡问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线强化学习 广义双线性偏好 纳什均衡 强凸正则化 偏好学习 高维数据 算法优化

📋 核心要点

  1. 当前在线RLHF方法在处理一般偏好时面临挑战,尤其是在识别纳什均衡方面。
  2. 本文提出了广义双线性偏好模型(GBPM),通过低秩反对称矩阵捕捉复杂的偏好结构。
  3. 实验结果表明,贪婪采样和探索后承诺算法在高维情况下显著降低了遗憾,提升了学习效率。

📝 摘要(中文)

本文考虑了具有一般偏好的上下文在线RLHF问题,目标是识别纳什均衡。我们采用广义双线性偏好模型(GBPM)来通过低秩、反对称矩阵捕捉潜在的非传递性偏好。我们研究了使用任意强凸正则化器的通用偏好学习,超越了以往仅限于反向KL正则化的工作。我们证明了贪婪策略的对偶间隙由估计误差的平方界定,并基于此和特征多样性假设,通过两种简单算法建立了两个遗憾界限:贪婪采样算法实现了多对数、$e^{O( heta)}$-自由的遗憾$ ilde{O}( heta d^4 ( ext{log} T)^2)$;而探索后承诺算法则通过利用低秩结构实现了$ ext{poly}(d)$-自由的遗憾$ ilde{O}( ext{sqrt}( heta r T))$,这是在线RLHF在高维中的首次统计有效保证。

🔬 方法详解

问题定义:本文旨在解决上下文在线RLHF中识别纳什均衡的问题。现有方法在处理一般偏好时存在局限,尤其是在偏好非传递性的情况下。

核心思路:我们采用广义双线性偏好模型(GBPM),利用低秩和反对称矩阵来捕捉复杂的偏好关系,并引入强凸正则化器以增强学习的稳定性和效率。

技术框架:整体方法包括两个主要阶段:首先是偏好学习阶段,使用GBPM进行偏好建模;其次是策略优化阶段,通过贪婪采样和探索后承诺算法来实现高效的策略更新。

关键创新:本文的关键创新在于引入了广义双线性偏好模型,能够处理更复杂的偏好结构,并且首次在高维情况下提供了统计有效的遗憾保证。

关键设计:我们设计了强凸正则化器,参数设置为$ heta^{-1}$,并通过特征多样性假设来确保算法的有效性。贪婪采样算法和探索后承诺算法的具体实现细节也被详细描述。

📊 实验亮点

实验结果显示,贪婪采样算法实现了多对数、$e^{O( heta)}$-自由的遗憾,达到$ ilde{O}( heta d^4 ( ext{log} T)^2)$;而探索后承诺算法则实现了$ ext{poly}(d)$-自由的遗憾,达到$ ilde{O}( ext{sqrt}( heta r T))$,在高维情况下显著提升了学习效率。

🎯 应用场景

该研究在推荐系统、个性化服务和博弈论等领域具有广泛的应用潜力。通过有效识别用户偏好和优化决策策略,可以显著提升用户体验和系统性能,推动智能决策系统的发展。

📄 摘要(原文)

We consider the problem of contextual online RLHF with general preferences, where the goal is to identify the Nash Equilibrium. We adopt the Generalized Bilinear Preference Model (GBPM) to capture potentially intransitive preferences via low-rank, skew-symmetric matrices. We investigate general preference learning with any strongly convex regularizer (where $\eta^{-1}$ is the regularization strength), generalizing beyond prior works limited to reverse KL-regularization. Central to our analysis is proving that the dual gap of the greedy policy is bounded by the square of the estimation error - a result derived solely from strong convexity and the skew-symmetricity ofthis http URLon this insight and a feature diversity assumption, we establish two regret bounds via two simple algorithms: (1) Greedy Sampling achieves polylogarithmic, $e^{O(\eta)}$-free regret $\tilde{O}(\eta d^4 (\log T)^2)$. (2) Explore-Then-Commit achieves $\mathrm{poly}(d)$-free regret $\tilde{O}(\sqrt{\eta r T})$ by exploiting the low-rank structure; this is the first statistically efficient guarantee for online RLHF in high-dimensions.