Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
作者: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-04-04
💡 一句话要点
提出直接纳什优化以解决语言模型自我改进问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 直接纳什优化 语言模型 自我改进 偏好反馈 对比学习 强化学习 模型对齐 自然语言处理
📋 核心要点
- 现有的后训练方法在奖励最大化框架下,难以处理复杂的偏好关系,限制了模型的自我改进能力。
- 本文提出的直接纳什优化(DNO)算法,通过直接优化一般偏好,克服了传统方法的局限性,提升了模型的稳定性和效率。
- 实验表明,使用DNO对齐的Orca-2.5模型在与GPT-4-Turbo的对比中,胜率提升至33%,相较于初始模型有显著的26%的绝对增益。
📝 摘要(中文)
本文研究了通过强大oracle的偏好反馈来帮助大型语言模型(LLMs)进行自我迭代改进的后训练方法。传统的后训练方法通常采用人类反馈的强化学习(RLHF),但这种基于奖励最大化的方法受限于“点对点”奖励的性质,无法表达复杂的偏好关系。本文提出了直接纳什优化(DNO),一种可证明且可扩展的算法,结合了对比学习的简单性和稳定性,以及优化一般偏好的理论通用性。DNO作为一种批量在线算法,使用基于回归的目标,实施简单高效,且在迭代中实现单调改进,能够超越强教师模型(如GPT-4)。实验结果显示,DNO对7B参数的Orca-2.5模型的对齐效果显著,达到了在AlpacaEval 2.0上对GPT-4-Turbo的33%的胜率,提升幅度达到26%。
🔬 方法详解
问题定义:本文旨在解决现有后训练方法在奖励最大化框架下无法有效表达复杂偏好关系的问题,导致模型自我改进受限。
核心思路:提出直接纳什优化(DNO),通过直接优化“成对”或一般偏好,结合对比学习的稳定性,简化了模型的自我改进过程。
技术框架:DNO为批量在线算法,采用回归基础的目标函数,整体流程包括偏好反馈的收集、模型参数的更新和性能评估等主要模块。
关键创新:DNO的核心创新在于将奖励学习与策略优化合并为一个对比目标,避免了传统方法的局限,确保了模型在迭代中的单调改进。
关键设计:DNO的设计包括使用回归损失函数来优化模型输出,确保了实现的简单性和高效性,同时在参数设置上进行了优化,以适应不同的训练场景。
🖼️ 关键图片
📊 实验亮点
实验结果显示,DNO对7B参数的Orca-2.5模型在AlpacaEval 2.0上对GPT-4-Turbo的胜率达到了33%,相比于初始模型提升了26%。该模型的表现超越了参数更多的模型,如Mistral Large和70B参数的自奖励语言模型,显示出DNO的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等,能够显著提升模型的自我改进能力和用户交互体验。未来,DNO可能在更多复杂任务中展现出更强的适应性和效率,推动智能系统的进一步发展。
📄 摘要(原文)
This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.