Regularized Online RLHF with Generalized Bilinear Preferences
作者: Junghyun Lee, Minju Hong, Kwang-Sung Jun, Chulhee Yun, Se-Young Yun
分类: cs.LG, stat.ML
发布日期: 2026-02-26 (更新: 2026-02-27)
备注: 43 pages, 1 table (ver2: more colorful boxes, fixed some typos)
💡 一句话要点
提出广义双线性偏好模型以解决在线RLHF中的纳什均衡问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 在线强化学习 偏好建模 纳什均衡 强凸正则化 高维数据 统计效率 贪婪策略 算法优化
📋 核心要点
- 核心问题:现有方法在处理具有一般偏好的在线RLHF时,难以有效识别纳什均衡,且局限于特定的正则化形式。
- 方法要点:本文提出了广义双线性偏好模型(GBPM),通过低秩和偏斜对称矩阵捕捉复杂的偏好结构,并引入强凸正则化器以增强学习效果。
- 实验或效果:通过贪婪采样和探索后承诺算法,本文实现了显著的遗憾界限,特别是在高维情况下,展示了统计效率的提升。
📝 摘要(中文)
本文考虑了具有一般偏好的上下文在线RLHF问题,目标是识别纳什均衡。我们采用广义双线性偏好模型(GBPM)来通过低秩、偏斜对称矩阵捕捉潜在的非传递性偏好。我们研究了任何强凸正则化器和正则化强度$η^{-1}$下的一般偏好学习,超越了以往仅限于反KL正则化的研究。我们证明了贪婪策略的对偶间隙受估计误差平方的限制,这一结果仅源于强凸性和GBPM的偏斜对称性。基于这一见解和特征多样性假设,我们通过两种简单算法建立了两个遗憾界限:贪婪采样算法实现了多对数、$e^{ ext{O}(η)}$-自由的遗憾$ ilde{ ext{O}}(ηd^4 ( ext{log} T)^2)$;探索后承诺算法通过利用低秩结构实现了$ ext{poly}(d)$-自由的遗憾$ ilde{ ext{O}}( ext{sqrt}(ηr T))$,这是在线RLHF在高维中的第一个统计高效保证。
🔬 方法详解
问题定义:本文旨在解决上下文在线RLHF中的纳什均衡识别问题。现有方法在处理一般偏好时存在局限,尤其是在正则化形式上多样性不足,导致学习效果不佳。
核心思路:我们提出使用广义双线性偏好模型(GBPM)来捕捉潜在的非传递性偏好,结合强凸正则化器,旨在提高学习的灵活性和准确性。
技术框架:整体架构包括偏好建模、策略优化和遗憾分析三个主要模块。首先,通过GBPM建模偏好,然后优化贪婪策略,最后分析遗憾界限以评估算法性能。
关键创新:最重要的技术创新在于引入了GBPM和强凸正则化的结合,突破了以往方法的限制,能够处理更复杂的偏好结构。
关键设计:我们设置了正则化强度$η^{-1}$,并使用低秩、偏斜对称矩阵来构建GBPM,确保模型能够有效捕捉复杂的偏好关系。
📊 实验亮点
实验结果表明,贪婪采样算法实现了多对数、$e^{ ext{O}(η)}$-自由的遗憾界限$ ilde{ ext{O}}(ηd^4 ( ext{log} T)^2)$,而探索后承诺算法则达到了$ ext{poly}(d)$-自由的遗憾界限$ ilde{ ext{O}}( ext{sqrt}(ηr T))$,显示出在高维情况下的统计效率显著提升。
🎯 应用场景
该研究的潜在应用领域包括在线推荐系统、个性化广告和智能助手等,能够有效处理用户偏好的复杂性,提高用户体验和满意度。未来,随着算法的进一步优化,可能在更多高维数据场景中展现出广泛的应用价值。
📄 摘要(原文)
We consider the problem of contextual online RLHF with general preferences, where the goal is to identify the Nash Equilibrium. We adopt the Generalized Bilinear Preference Model (GBPM) to capture potentially intransitive preferences via low-rank, skew-symmetric matrices. We investigate general preference learning with any strongly convex regularizer and regularization strength $η^{-1}$, generalizing beyond prior work limited to reverse KL-regularization. Central to our analysis is proving that the dual gap of the greedy policy is bounded by the square of the estimation error, a result derived solely from strong convexity and the skew-symmetry of GBPM. Building on this insight and a feature diversity assumption, we establish two regret bounds via two simple algorithms: (1) Greedy Sampling achieves polylogarithmic, $e^{\mathcal{O}(η)}$-free regret $\tilde{\mathcal{O}}(ηd^4 (\log T)^2)$. (2) Explore-Then-Commit achieves $\mathrm{poly}(d)$-free regret $\tilde{\mathcal{O}}(\sqrt{ηr T})$ by exploiting the low-rank structure; this is the first statistically efficient guarantee for online RLHF in high-dimensions.