Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF

📄 arXiv: 2405.21046v1 📥 PDF

作者: Tengyang Xie, Dylan J. Foster, Akshay Krishnamurthy, Corby Rosset, Ahmed Awadallah, Alexander Rakhlin

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2024-05-31


💡 一句话要点

提出XPO算法,通过隐式Q*-近似实现RLHF中的高效探索偏好优化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人类反馈强化学习 在线探索 偏好优化 Q*-近似 样本效率

📋 核心要点

  1. 现有RLHF方法在在线探索中存在计算和统计瓶颈,难以充分挖掘模型的潜在能力。
  2. XPO算法通过在DPO目标中引入探索奖励,鼓励模型探索未知区域,提升探索效率。
  3. 理论分析和初步实验表明,XPO具有样本高效性,并能收敛到接近最优的策略。

📝 摘要(中文)

本文针对人类反馈强化学习(RLHF)中的在线探索问题,提出了一种新的算法:探索偏好优化(XPO)。RLHF通过鼓励模型生成多样且信息量最大的响应来利用人类或AI反馈。在线探索使得RLHF能够自信地偏离预训练模型,从而产生新颖的、潜在的超人能力。然而,由于直接应用现有强化学习技术的计算和统计瓶颈,其作为语言模型训练范式的潜力尚未完全实现。XPO通过在DPO目标中增加一个新颖且有原则的探索奖励来增强DPO,从而使算法能够探索初始模型和人类反馈数据之外的区域。理论分析表明,在自然的探索条件下,XPO是样本高效的,并且收敛到接近最优的语言模型策略,而与初始模型是否具有良好的覆盖率无关。初步评估表明,XPO比非探索性DPO变体更具样本效率。

🔬 方法详解

问题定义:论文旨在解决RLHF中在线探索的样本效率问题。现有的RLHF方法,特别是基于DPO的方法,在探索未知策略空间时效率较低,难以发现超越预训练模型能力的新策略。这些方法往往受限于初始模型和已有的反馈数据,无法充分探索潜在的更优策略。

核心思路:XPO的核心思路是通过在DPO的目标函数中引入一个探索奖励,鼓励模型探索那些与已有数据差异较大的区域。这个探索奖励基于一种隐式的Q*-近似,使得模型能够估计不同策略的潜在价值,并优先探索那些具有高价值但尚未充分探索的策略。

技术框架:XPO算法建立在DPO的基础上,整体框架与DPO类似,包括:1) 收集人类或AI的偏好数据;2) 使用偏好数据训练奖励模型;3) 使用奖励模型优化语言模型。XPO的关键在于第三步,它修改了DPO的优化目标,引入了探索奖励项。

关键创新:XPO最重要的创新点在于探索奖励的设计。该奖励基于DPO隐式执行Q*-近似的观察,利用Bellman误差最小化的思想,鼓励模型探索那些具有高预测价值但预测不确定性高的区域。这种探索奖励能够有效地引导模型跳出局部最优,发现更优的策略。

关键设计:XPO的关键设计在于探索奖励的具体形式。探索奖励被添加到DPO的目标函数中,其强度由一个超参数控制。该奖励与策略的KL散度相关,鼓励模型在探索的同时保持与已有策略的相似性,避免策略崩溃。具体来说,XPO通过在DPO的损失函数中增加一个与策略分布和初始模型分布之间的KL散度相关的项来实现探索。

📊 实验亮点

初步实验结果表明,XPO算法在样本效率方面优于非探索性的DPO变体。具体来说,XPO在相同的训练数据量下,能够更快地收敛到更优的策略,并取得更高的奖励。这些结果验证了XPO算法的有效性,表明其能够有效地提升RLHF的探索效率。

🎯 应用场景

XPO算法可应用于各种需要通过人类反馈进行优化的语言模型任务,例如对话系统、文本生成、代码生成等。该算法能够提升模型的探索能力,使其能够发现更优的策略,从而提高模型的性能和用户满意度。此外,XPO还可以应用于其他类型的强化学习任务,例如机器人控制、游戏AI等。

📄 摘要(原文)

Reinforcement learning from human feedback (RLHF) has emerged as a central tool for language model alignment. We consider online exploration in RLHF, which exploits interactive access to human or AI feedback by deliberately encouraging the model to produce diverse, maximally informative responses. By allowing RLHF to confidently stray from the pre-trained model, online exploration offers the possibility of novel, potentially super-human capabilities, but its full potential as a paradigm for language model training has yet to be realized, owing to computational and statistical bottlenecks in directly adapting existing reinforcement learning techniques. We propose a new algorithm for online exploration in RLHF, Exploratory Preference Optimization (XPO), which is simple and practical -- a one-line change to (online) Direct Preference Optimization (DPO; Rafailov et al., 2023) -- yet enjoys the strongest known provable guarantees and promising empirical performance. XPO augments the DPO objective with a novel and principled exploration bonus, empowering the algorithm to explore outside the support of the initial model and human feedback data. In theory, we show that XPO is provably sample-efficient and converges to a near-optimal language model policy under natural exploration conditions, irrespective of whether the initial model has good coverage. Our analysis, which builds on the observation that DPO implicitly performs a form of $Q^{\star}$-approximation (or, Bellman error minimization), combines previously disparate techniques from language modeling and theoretical reinforcement learning in a serendipitous fashion through the perspective of KL-regularized Markov decision processes. Empirically, we find that XPO is more sample-efficient than non-exploratory DPO variants in a preliminary evaluation.