Multiplayer Nash Preference Optimization

📄 arXiv: 2509.23102v2 📥 PDF

作者: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi

分类: cs.AI, cs.CL

发布日期: 2025-09-27 (更新: 2026-01-07)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MNPO,将NLHF扩展到多人博弈,提升复杂偏好对齐效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 纳什均衡 多人博弈 偏好对齐

📋 核心要点

  1. 现有RLHF方法难以捕捉人类偏好的非传递性和异质性,双人纳什学习(NLHF)存在单一对手偏差。
  2. MNPO将NLHF扩展到多人博弈,每个策略与多个对手竞争,并正则化到参考模型,从而实现更丰富的竞争动态。
  3. 实验表明,MNPO在指令跟随任务上优于现有NLHF基线,尤其在异构标注和混合策略评估中表现更佳。

📝 摘要(中文)

从人类反馈中进行强化学习(RLHF)已成为使大型语言模型与人类偏好对齐的标准范例。然而,基于Bradley-Terry假设的基于奖励的方法难以捕捉真实世界偏好的非传递性和异质性。为了解决这个问题,最近的研究将对齐重新定义为双人纳什博弈,从而产生了基于人类反馈的纳什学习(NLHF)。虽然这种视角激发了诸如INPO、ONPO和EGPO等具有强大理论和经验保证的算法,但它们仍然从根本上局限于双人交互,从而产生了一种单一对手偏差,无法捕捉现实偏好结构的全部复杂性。这项工作介绍了多人纳什偏好优化(MNPO),这是一个将NLHF推广到多人机制的新框架。它将对齐形式化为一个n人博弈,其中每个策略与对手群体竞争,同时被正则化到参考模型。我们证明MNPO继承了双人方法的均衡保证,同时实现了更丰富的竞争动态和对多样化偏好结构的更好覆盖。全面的经验评估表明,MNPO在指令跟随基准测试中始终优于现有的NLHF基线,在异构标注者条件和混合策略评估场景下实现了卓越的对齐质量。总之,这些结果确立了MNPO作为一个原则性和可扩展的框架,用于将LLM与复杂的、非传递的人类偏好对齐。

🔬 方法详解

问题定义:现有基于人类反馈的强化学习方法,特别是基于奖励的方法,难以处理真实世界中人类偏好的复杂性,例如非传递性和异质性。虽然NLHF通过双人博弈的方式有所改进,但其固有的双人交互限制导致了单一对手偏差,无法充分捕捉多样化的偏好结构。因此,需要一种能够处理更复杂偏好结构,并避免单一对手偏差的对齐方法。

核心思路:MNPO的核心思路是将对齐问题建模为一个多人纳什博弈。在这个博弈中,每个策略(例如,语言模型的策略)都与一个由多个其他策略组成的群体进行竞争。通过这种方式,MNPO能够捕捉到更丰富的竞争动态,并更好地覆盖多样化的偏好结构。同时,为了保证训练的稳定性,每个策略都会被正则化到一个参考模型。

技术框架:MNPO的整体框架包括以下几个主要组成部分:1) 一个策略集合,代表参与博弈的多个策略;2) 一个偏好模型,用于评估不同策略之间的偏好关系;3) 一个多人纳什均衡求解器,用于找到策略集合的纳什均衡点;4) 一个参考模型,用于对策略进行正则化。训练过程通常包括以下步骤:首先,从策略集合中采样一组策略;然后,使用偏好模型评估这些策略之间的偏好关系;接着,使用纳什均衡求解器找到当前策略集合的纳什均衡点;最后,使用参考模型对策略进行正则化,并更新策略集合。

关键创新:MNPO最重要的创新在于将NLHF从双人博弈扩展到多人博弈。这种扩展使得模型能够捕捉到更丰富的竞争动态,并更好地覆盖多样化的偏好结构。与现有的NLHF方法相比,MNPO能够更好地处理复杂的、非传递的人类偏好,并避免单一对手偏差。

关键设计:MNPO的关键设计包括:1) 多人纳什均衡求解器的选择,需要选择一个能够有效找到多人博弈纳什均衡点的求解器;2) 参考模型的选择,需要选择一个能够提供稳定正则化信号的参考模型;3) 偏好模型的训练,需要训练一个能够准确评估不同策略之间偏好关系的偏好模型。此外,损失函数的设计也至关重要,需要平衡策略之间的竞争关系和策略与参考模型之间的正则化关系。

📊 实验亮点

实验结果表明,MNPO在指令跟随基准测试中始终优于现有的NLHF基线。在异构标注者条件下,MNPO能够更好地适应不同标注者的偏好差异,从而实现更高的对齐质量。在混合策略评估场景下,MNPO能够更好地应对不同策略之间的竞争,从而获得更稳定的性能。

🎯 应用场景

MNPO可应用于各种需要与复杂人类偏好对齐的场景,例如:个性化推荐系统、对话系统、内容生成等。通过更好地捕捉和理解人类偏好,MNPO可以提升用户满意度、改善用户体验,并促进人机协作。

📄 摘要(原文)

Reinforcement learning from human feedback (RLHF) has emerged as the standard paradigm for aligning large language models with human preferences. However, reward-based methods built on the Bradley-Terry assumption struggle to capture the non-transitive and heterogeneous nature of real-world preferences. To address this, recent studies have reframed alignment as a two-player Nash game, giving rise to Nash learning from human feedback (NLHF). While this perspective has inspired algorithms such as INPO, ONPO, and EGPO with strong theoretical and empirical guarantees, they remain fundamentally restricted to two-player interactions, creating a single-opponent bias that fails to capture the full complexity of realistic preference structures. This work introduces Multiplayer Nash Preference Optimization (MNPO), a novel framework that generalizes NLHF to the multiplayer regime. It formulates alignment as an n-player game, where each policy competes against a population of opponents while being regularized toward a reference model. We demonstrate that MNPO inherits the equilibrium guarantees of two-player methods while enabling richer competitive dynamics and improved coverage of diverse preference structures. Comprehensive empirical evaluation shows that MNPO consistently outperforms existing NLHF baselines on instruction-following benchmarks, achieving superior alignment quality under heterogeneous annotator conditions and mixed-policy evaluation scenarios. Together, these results establish MNPO as a principled and scalable framework for aligning LLMs with complex, non-transitive human preferences. Code is available at https://github.com/smiles724/MNPO.