Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

📄 arXiv: 2407.00617v4 📥 PDF

作者: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

分类: cs.LG, cs.AI, cs.CL, cs.GT

发布日期: 2024-06-30 (更新: 2025-03-03)


💡 一句话要点

提出迭代纳什策略优化(INPO),通过无悔学习对齐LLM与通用偏好。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RLHF 大语言模型 偏好学习 纳什均衡 无悔学习

📋 核心要点

  1. 现有基于奖励的RLHF方法难以完全捕捉人类偏好的复杂性,限制了LLM对齐的上限。
  2. INPO算法将RLHF建模为双人博弈,通过无悔学习逼近纳什策略,避免了胜率估计的难题。
  3. 实验表明,INPO在AlpacaEval 2.0和Arena-Hard等基准测试中显著优于现有在线RLHF算法。

📝 摘要(中文)

本文探讨了通用偏好框架下的RLHF,并从博弈论的角度提出了迭代纳什策略优化(INPO)算法。该算法将对齐问题建模为双人博弈,通过无悔学习让策略与自身对弈,从而逼近纳什策略。INPO避免了估计单个响应的期望胜率,降低了计算或标注成本。论文提出了一种新的损失目标,可以直接在偏好数据集上最小化。理论分析和实验结果表明,INPO在多个基准测试中均表现出色。基于LLaMA-3-8B的SFT模型,INPO在AlpacaEval 2.0上实现了42.6%的长度控制胜率,在Arena-Hard上实现了37.8%的胜率,显著优于现有最优的在线RLHF算法。

🔬 方法详解

问题定义:论文旨在解决现有RLHF方法中,基于Bradley-Terry模型假设的奖励函数无法充分表达人类偏好,导致模型对齐效果受限的问题。现有方法通常需要估计每个响应的期望胜率,这需要大量的计算资源或人工标注,成本高昂。

核心思路:论文的核心思路是将RLHF问题建模为一个双人博弈,其中策略与自身进行对抗。通过迭代地更新策略,使其逼近纳什均衡点,从而实现与人类偏好对齐。这种方法避免了直接估计胜率,而是通过最小化一个直接基于偏好数据的损失函数来实现。

技术框架:INPO算法的整体框架如下:1) 初始化一个策略模型;2) 在每一轮迭代中,使用当前策略生成响应;3) 从人类偏好数据集中采样偏好对;4) 使用提出的损失函数更新策略模型,使其更好地符合人类偏好;5) 重复步骤2-4,直到策略收敛。该框架的核心在于使用无悔学习算法来更新策略,使其在与自身对弈的过程中不断改进。

关键创新:INPO的关键创新在于将RLHF问题建模为双人博弈,并使用无悔学习算法来逼近纳什均衡。与现有方法相比,INPO不需要估计胜率,而是直接在偏好数据集上进行优化,降低了计算和标注成本。此外,INPO提出的损失函数能够更好地捕捉人类偏好的复杂性。

关键设计:INPO的关键设计包括:1) 使用神经网络作为策略模型;2) 设计了一个新的损失函数,该损失函数基于偏好对的排序,鼓励模型生成更符合人类偏好的响应;3) 使用Adam优化器来更新策略模型;4) 使用合适的学习率和批量大小来保证训练的稳定性和效率。具体的损失函数形式和超参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,INPO算法在AlpacaEval 2.0和Arena-Hard等基准测试中取得了显著的性能提升。具体而言,INPO在AlpacaEval 2.0上实现了42.6%的长度控制胜率,在Arena-Hard上实现了37.8%的胜率,显著优于现有最优的在线RLHF算法。这些结果表明,INPO能够更有效地利用人类偏好数据,提升LLM的对齐效果。

🎯 应用场景

INPO算法可应用于各种需要与人类偏好对齐的大语言模型应用场景,例如对话系统、文本生成、代码生成等。通过更有效地利用人类反馈,INPO可以提升LLM的实用性和安全性,使其更好地服务于人类社会。该研究对于开发更智能、更符合人类价值观的人工智能系统具有重要意义。

📄 摘要(原文)

Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel online algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 42.6% length-controlled win rate on AlpacaEval 2.0 and a 37.8% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art online RLHF algorithms.