$f$-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses
作者: Di Wu, Chengshuai Shi, Jing Yang, Cong Shen
分类: cs.LG, cs.AI, cs.IT, stat.ML
发布日期: 2026-05-07
备注: ICML 2026
💡 一句话要点
提出基于通用f-散度正则化的在线RLHF理论框架,实现最优遗憾界与收敛性分析
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类反馈强化学习 f-散度 在线学习 大语言模型对齐 遗憾界分析 策略优化
📋 核心要点
- 现有RLHF研究多局限于反向KL散度,缺乏对通用f-散度正则化机制的统一理论支撑与性能边界分析。
- 论文构建了统一的理论框架,提出了基于乐观探索与奖励扰动敏感性的两种算法,实现了对通用f-散度的有效优化。
- 理论证明了算法在在线RLHF场景下可达到O(log T)的遗憾界与O(1/T)的次优间隙,验证了其高效性与收敛性。
📝 摘要(中文)
人类反馈强化学习(RLHF)已成为大语言模型后训练的核心技术。尽管现有方法多依赖于反向KL散度正则化,但近期实证研究开始探索其他散度(如前向KL、卡方散度)作为正则项的潜力。然而,针对通用f-散度正则化的统一理论理解尚显不足。本文填补了这一空白,为具有通用f-散度正则化目标的在线RLHF开发了全面的理论框架。我们摒弃了对单一散度函数的孤立处理,转而从函数类整体视角出发,提出了两种基于不同采样原则的算法:第一种扩展了经典的乐观原则并设计了精细的探索奖励;第二种利用了最优策略对f-散度正则化下奖励扰动的敏感性。理论分析表明,两种算法均可实现O(log T)的遗憾界和O(1/T)的次优间隙,确立了其可证明的效率,并提供了在线RLHF在通用f-散度下的首个性能界限。
🔬 方法详解
问题定义:RLHF在模型对齐中至关重要,但目前主流方法仅限于反向KL正则化。随着研究者尝试引入前向KL或卡方散度等其他f-散度,缺乏统一的数学框架来评估这些正则项对策略优化、探索效率及收敛性的影响,限制了算法的普适性。
核心思路:论文采用函数类整体视角,将f-散度视为一类统一的正则化约束。通过分析策略在不同f-散度下的响应特性,设计了两种互补的采样策略,分别针对探索效率和策略稳定性进行优化,从而实现对任意f-散度正则化目标的统一求解。
技术框架:整体框架包含在线交互循环,通过奖励模型反馈更新策略。算法一基于乐观原则(Optimism),通过引入针对f-散度定制的探索奖励(Exploration Bonus)引导策略搜索;算法二则利用策略对奖励扰动的敏感性(Sensitivity),通过扰动分析实现对最优策略的快速逼近。
关键创新:首次建立了通用f-散度正则化RLHF的理论分析框架,打破了仅限于KL散度的局限。创新性地将策略敏感性分析引入RLHF,为处理非对称散度提供了新的数学工具,并证明了该框架下的算法具有理论上的最优收敛速率。
关键设计:核心设计在于根据f-散度的共轭函数特性,推导出了统一的正则化梯度更新规则。通过引入特定的探索奖励项,平衡了策略的探索与利用,确保在有限样本下实现对最优策略的收敛。
🖼️ 关键图片
📊 实验亮点
本研究在理论上取得了突破,证明了所提算法在通用f-散度正则化下均能达到O(log T)的遗憾界(Regret Bound)和O(1/T)的次优间隙(Sub-optimality Gap)。这是目前在线RLHF领域首个针对通用f-散度的性能界限,为算法的收敛性与高效性提供了严谨的数学支撑,超越了以往仅针对特定散度的经验性研究。
🎯 应用场景
该研究成果可直接应用于大语言模型(LLM)的对齐训练,特别是当开发者希望通过调整正则化项(如使用卡方散度以获得更强的分布约束)来控制模型生成风格时。此外,该理论框架为机器人学习、推荐系统等需要人类偏好对齐的在线强化学习任务提供了通用的算法指导与性能保证。
📄 摘要(原文)
Reinforcement Learning from Human Feedback (RLHF) has become a cornerstone technique for post-training large language models. While most existing approaches rely on the reverse KL-regularization, recent empirical studies have begun exploring alternative divergences (e.g., forward KL, chi-squared) as regularizers in RLHF. However, a unified theoretical understanding of general $f$-divergence regularization remains under-explored. To fill this gap, this work develops a comprehensive theoretical framework for online RLHF with a general $f$-divergence regularized objective. Rather than treating each possible divergence function individually, we adopt a holistic perspective across the entire function class and propose two algorithms based on distinct sampling principles. The first extends the classical optimism principle with a carefully designed exploration bonus, while the second introduces a new method that exploits the sensitivity of the optimal policy to reward perturbations under $f$-divergence regularization. Theoretical analysis shows that $O(\log T)$ regret and $O(1/T)$ sub-optimality gap are achievable, establishing provable efficiency of both algorithms and, to the best of our knowledge, the first performance bounds for online RLHF under general $f$-divergence regularization.