Generalisation of RLHF under Reward Shift and Clipped KL Regularisation

📄 arXiv: 2602.21765v1 📥 PDF

作者: Kenton Tang, Yuzhu Chen, Fengxiang He

分类: cs.LG, cs.AI, stat.ML

发布日期: 2026-02-25


💡 一句话要点

针对奖励漂移和KL裁剪正则化的RLHF泛化理论研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RLHF 强化学习 奖励漂移 KL散度 泛化理论 语言模型对齐 KL裁剪

📋 核心要点

  1. 现有RLHF方法在奖励漂移和KL散度裁剪估计方面存在泛化能力不足的问题,限制了其在实际场景中的应用。
  2. 论文提出了一种新的RLHF泛化理论框架,显式地考虑了奖励漂移和KL裁剪正则化对泛化误差的影响。
  3. 该理论推导出了RLHF的泛化界限,并为最优KL裁剪阈值和数据预算分配提供了理论指导。

📝 摘要(中文)

大型语言模型的对齐和适应严重依赖于基于人类反馈的强化学习(RLHF)。然而,对其泛化能力的理论理解尚不成熟,尤其是在学习到的奖励可能发生漂移,并且KL控制被估计和裁剪的情况下。为了解决这个问题,我们为RLHF开发了泛化理论,该理论明确考虑了:(1)奖励漂移:奖励模型在来自早期或混合行为策略的偏好数据上进行训练,而RLHF在其自身的rollout上优化当前策略;(2)裁剪的KL正则化:KL正则化器从采样的对数概率比率中估计,然后被裁剪以实现稳定,从而导致RLHF的误差。我们提出了RLHF的泛化界限,表明泛化误差源于来自提示和rollout的采样误差、奖励漂移误差和KL裁剪误差。我们还讨论了(1)使用有限空间上的均匀先验初始化RLHF参数,以及(2)通过随机梯度下降训练RLHF作为Ornstein-Uhlenbeck过程的特殊情况。该理论在(1)最优KL裁剪阈值和(2)提示、rollout和偏好数据中的预算分配方面具有实际意义。

🔬 方法详解

问题定义:论文旨在解决RLHF在实际应用中由于奖励漂移和KL散度裁剪估计导致的泛化能力下降问题。现有的RLHF方法通常假设奖励模型是静态的,并且KL散度可以精确计算,这与实际情况不符。奖励漂移指的是奖励模型在不同的策略下训练,导致奖励函数发生变化。KL散度裁剪是为了稳定训练过程而采取的措施,但会引入额外的误差。

核心思路:论文的核心思路是将奖励漂移和KL散度裁剪引入到RLHF的泛化误差分析中,从而更准确地评估RLHF的泛化能力。通过对奖励漂移和KL散度裁剪误差进行建模,可以推导出更紧的泛化界限,并为实际应用提供指导。

技术框架:论文的整体框架包括以下几个步骤:1)对奖励漂移和KL散度裁剪进行建模;2)推导RLHF的泛化界限,该界限包括采样误差、奖励漂移误差和KL裁剪误差;3)分析特殊情况,例如使用均匀先验初始化RLHF参数和使用随机梯度下降训练RLHF;4)基于理论结果,提出实际应用建议,例如最优KL裁剪阈值和数据预算分配。

关键创新:论文的关键创新在于:1)首次将奖励漂移和KL散度裁剪引入到RLHF的泛化误差分析中;2)推导出了更紧的RLHF泛化界限,该界限可以更准确地评估RLHF的泛化能力;3)为最优KL裁剪阈值和数据预算分配提供了理论指导。

关键设计:论文的关键设计包括:1)使用Wasserstein距离来度量奖励漂移;2)使用Hoeffding不等式和Concentration of Measure不等式来推导泛化界限;3)分析了使用均匀先验初始化RLHF参数和使用随机梯度下降训练RLHF的特殊情况;4)基于理论结果,提出了最优KL裁剪阈值和数据预算分配的计算公式。

📊 实验亮点

论文推导了考虑奖励漂移和KL裁剪正则化的RLHF泛化界限,为实际应用提供了理论指导。该理论可以用于优化KL裁剪阈值和数据预算分配,从而提高RLHF的训练效率和性能。特殊情况下,分析了均匀先验初始化和随机梯度下降训练对泛化性能的影响。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种实际场景中的对齐效果和泛化能力,例如对话系统、文本生成和代码生成等。通过优化KL裁剪阈值和数据预算分配,可以提高RLHF的训练效率和性能,从而更好地满足用户的需求。

📄 摘要(原文)

Alignment and adaptation in large language models heavily rely on reinforcement learning from human feedback (RLHF); yet, theoretical understanding of its generalisability remains premature, especially when the learned reward could shift, and the KL control is estimated and clipped. To address this issue, we develop generalisation theory for RLHF that explicitly accounts for (1) \emph{reward shift}: reward models are trained on preference data from earlier or mixed behaviour policies while RLHF optimises the current policy on its own rollouts; and (2) \emph{clipped KL regularisation}: the KL regulariser is estimated from sampled log-probability ratios and then clipped for stabilisation, resulting in an error to RLHF. We present generalisation bounds for RLHF, suggesting that the generalisation error stems from a sampling error from prompts and rollouts, a reward shift error, and a KL clipping error. We also discuss special cases of (1) initialising RLHF parameters with a uniform prior over a finite space, and (2) training RLHF by stochastic gradient descent, as an Ornstein-Uhlenbeck process. The theory yields practical implications in (1) optimal KL clipping threshold, and (2) budget allocation in prompts, rollouts, and preference data.