Self-Play Preference Optimization for Language Model Alignment
作者: Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布日期: 2024-05-01 (更新: 2024-10-04)
备注: 27 pages, 4 figures, 5 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于自博弈偏好优化的语言模型对齐方法SPPO,提升模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型对齐 自博弈 偏好优化 强化学习 纳什均衡
📋 核心要点
- 现有RLHF方法难以捕捉人类偏好的复杂性,限制了语言模型对齐的准确性。
- SPPO将语言模型对齐视为自博弈问题,通过迭代更新策略逼近纳什均衡。
- 实验表明,SPPO在多个基准测试中优于现有方法,且无需额外外部监督。
📝 摘要(中文)
现有的基于人类反馈的强化学习(RLHF)方法,依赖于参数模型(如Bradley-Terry模型),难以捕捉人类偏好中的非传递性和非理性。最近的研究表明,直接处理偏好概率可以更准确地反映人类偏好,从而实现更灵活和精确的语言模型对齐。本文提出了一种基于自博弈的语言模型对齐方法,将该问题视为一个常和双人博弈,旨在识别纳什均衡策略。该方法被称为自博弈偏好优化(SPPO),利用迭代策略更新来逼近纳什均衡。此外,我们提出了一个新的SPPO目标,该目标在理论上有很强的动机,并且在实践中简单有效。实验结果表明,仅使用UltraFeedback数据集中的6万个提示(没有响应),并且没有任何提示增强,通过利用一个只有0.4B参数的预训练偏好模型PairRM,SPPO可以从微调Mistral-7B-Instruct-v0.2中获得一个模型,该模型在AlpacaEval 2.0上实现了最先进的长度控制胜率28.53%(对抗GPT-4-Turbo)。在MT-Bench、Arena-Hard和Open LLM Leaderboard上,SPPO也优于(迭代)DPO和IPO。从更强的基础模型Llama-3-8B-Instruct开始,我们能够实现38.77%的长度控制胜率。值得注意的是,SPPO的强大性能是在没有来自GPT-4或其他更强语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。
🔬 方法详解
问题定义:现有RLHF方法,如基于Bradley-Terry模型的算法,在捕捉人类偏好的非传递性和非理性方面存在不足。这些方法无法准确反映人类的真实偏好,导致语言模型对齐效果受限。因此,需要一种更有效的方法来利用人类偏好数据,从而更好地对齐语言模型。
核心思路:SPPO的核心思路是将语言模型对齐问题建模为一个常和双人博弈,其中两个玩家分别代表两个不同的策略。通过迭代更新策略,使两个玩家的策略逐渐逼近纳什均衡。在纳什均衡状态下,任何一方都无法通过单方面改变策略来获得更高的收益,从而达到一个稳定的状态,代表了模型对人类偏好的最佳对齐。
技术框架:SPPO的技术框架主要包括以下几个步骤:1) 使用预训练的偏好模型(如PairRM)来评估不同策略生成的文本的偏好概率。2) 基于偏好概率,构建一个常和双人博弈。3) 使用迭代策略更新算法,例如梯度上升或类似的优化方法,来更新语言模型的策略,使其逐渐逼近纳什均衡。4) 重复步骤2和3,直到策略收敛或达到预定的迭代次数。
关键创新:SPPO的关键创新在于将语言模型对齐问题转化为一个自博弈问题,并利用纳什均衡的概念来寻找最优策略。与传统的RLHF方法相比,SPPO能够更有效地利用人类偏好数据,并且不需要额外的外部监督。此外,论文还提出了一个新的SPPO目标函数,该函数在理论上有很强的动机,并且在实践中简单有效。
关键设计:SPPO的关键设计包括:1) 使用预训练的偏好模型PairRM来估计偏好概率。PairRM是一个相对较小的模型(0.4B参数),可以有效地学习人类偏好。2) 提出了一个新的SPPO目标函数,该函数基于纳什均衡的概念,能够有效地指导策略更新。3) 使用迭代策略更新算法来逼近纳什均衡。具体的迭代算法可以根据实际情况选择,例如梯度上升或类似的优化方法。
🖼️ 关键图片
📊 实验亮点
SPPO在AlpacaEval 2.0上实现了28.53%的长度控制胜率(对抗GPT-4-Turbo),优于DPO和IPO等现有方法。在MT-Bench、Arena-Hard和Open LLM Leaderboard等基准测试中也取得了显著的性能提升。值得注意的是,SPPO在没有额外外部监督的情况下,仅使用6万个提示即可达到如此高的性能。
🎯 应用场景
SPPO方法可应用于各种需要与人类偏好对齐的语言模型任务,如对话系统、文本生成、内容推荐等。通过更准确地理解和满足人类偏好,SPPO可以提升用户体验,并促进人工智能技术的更广泛应用。该方法在个性化服务、教育、娱乐等领域具有巨大的潜力。
📄 摘要(原文)
Standard reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), utilizes iterative policy updates to provably approximate the Nash equilibrium. Additionally, we propose a new SPPO objective which is both strongly motivated by theory and is simple and effective in practice. In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench, Arena-Hard, and the Open LLM Leaderboard. Starting from a stronger base model Llama-3-8B-Instruct, we are able to achieve a length-controlled win rate of 38.77%. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models. Codes are available at https://github.com/uclaml/SPPO.