Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization

📄 arXiv: 2409.17534v2 📥 PDF

作者: Ruijie Xu, Zhihan Liu, Yongfei Liu, Shipeng Yan, Zhaoran Wang, Zhi Zhang, Xuming He

分类: cs.AI

发布日期: 2024-09-26 (更新: 2024-10-14)


💡 一句话要点

提出仅提示自奖励在线偏好优化算法,提升小模型在线RLHF性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线RLHF 自奖励学习 偏好优化 提示工程 小模型对齐

📋 核心要点

  1. 在线RLHF依赖额外奖励模型或GPT-4 API,交互成本高昂,且现有自奖励方法对小模型迁移性差。
  2. 提出仅提示自奖励在线算法,无需判别器即可生成偏好数据集,降低对模型判断能力的依赖。
  3. 通过细粒度控制正负样本最优性差距,生成更难的负样本,提升模型捕捉细微人类偏好的能力,实验表明性能显著提升。

📝 摘要(中文)

本文致力于解决在线人类反馈强化学习(RLHF)中的自奖励对齐问题。在线RLHF获取反馈需要与环境交互,当使用额外的奖励模型或GPT-4 API时,成本会很高。现有的自奖励方法严重依赖判别器的判断能力,这对于大型模型有效,但难以迁移到较小的模型。为了解决这些限制,我们提出了一种新颖的仅提示自奖励在线算法,该算法无需依赖判断能力即可生成偏好数据集。此外,我们对正负样本之间的最优性差距进行细粒度的算术控制,在训练后期生成更难的负样本,以帮助模型更好地捕捉细微的人类偏好。最后,我们在Mistral-7B和Mistral-Instruct-7B两个基础模型上进行了广泛的实验,显著提升了参考模型的性能,在AlpacaEval 2.0的长度控制胜率中达到了34.5%。

🔬 方法详解

问题定义:论文旨在解决在线人类反馈强化学习(RLHF)中,现有自奖励方法对小模型迁移性差,以及依赖额外奖励模型或GPT-4 API导致交互成本高昂的问题。现有方法严重依赖判别器的判断能力,这对于大型模型有效,但难以迁移到参数量较小的模型上,限制了RLHF在资源受限场景下的应用。

核心思路:论文的核心思路是提出一种“仅提示自奖励”的在线算法,该算法通过精心设计的提示(prompting)来生成偏好数据集,而无需依赖额外的奖励模型或判别器的判断能力。这种方法旨在降低计算成本,并提高算法在小模型上的适用性。

技术框架:整体框架包含以下几个主要阶段:1) 使用参考模型生成初始策略;2) 使用当前策略与环境交互,并根据预设的提示生成正负样本对;3) 通过细粒度的算术控制,调整正负样本之间的最优性差距,生成更具挑战性的负样本;4) 使用生成的偏好数据集训练策略,更新模型参数;5) 重复步骤2-4,进行在线学习。

关键创新:最重要的技术创新点在于提出了“仅提示自奖励”的策略,即完全依赖提示工程来生成偏好数据,避免了对额外奖励模型或判别器的依赖。此外,通过细粒度控制正负样本之间的最优性差距,动态调整负样本的难度,使得模型能够更好地学习人类的偏好。

关键设计:关键设计包括:1) 精心设计的提示,用于引导模型生成符合人类偏好的正负样本;2) 算术控制机制,用于调整正负样本之间的最优性差距,例如,在训练初期生成容易区分的负样本,而在训练后期生成更难区分的负样本,以提高模型的学习效率和泛化能力;3) 损失函数的设计,用于衡量模型预测的偏好与人类偏好之间的差异,并指导模型参数的更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Mistral-7B和Mistral-Instruct-7B两个基础模型上取得了显著的性能提升,在AlpacaEval 2.0的长度控制胜率中达到了34.5%。这表明该方法能够有效地提升小模型的在线RLHF性能,并具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要在线学习人类偏好的场景,例如对话系统、推荐系统、游戏AI等。通过降低对额外奖励模型的依赖,该方法可以降低部署成本,并提高在资源受限环境下的适用性。未来,该方法有望促进人机协作的智能化水平,提升用户体验。

📄 摘要(原文)

We address the challenge of online Reinforcement Learning from Human Feedback (RLHF) with a focus on self-rewarding alignment methods. In online RLHF, obtaining feedback requires interaction with the environment, which can be costly when using additional reward models or the GPT-4 API. Current self-rewarding approaches rely heavily on the discriminator's judgment capabilities, which are effective for large-scale models but challenging to transfer to smaller ones. To address these limitations, we propose a novel, only-prompting self-rewarding online algorithm that generates preference datasets without relying on judgment capabilities. Additionally, we employ fine-grained arithmetic control over the optimality gap between positive and negative examples, generating more hard negatives in the later stages of training to help the model better capture subtle human preferences. Finally, we conduct extensive experiments on two base models, Mistral-7B and Mistral-Instruct-7B, which significantly bootstrap the performance of the reference model, achieving 34.5% in the Length-controlled Win Rates of AlpacaEval 2.0.