Towards General Preference Alignment: Diffusion Models at Nash Equilibrium

📄 arXiv: 2605.04494v1 📥 PDF

作者: Jiaming Hu, Jiamu Bai, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis

分类: cs.LG, cs.CV

发布日期: 2026-05-06

备注: 21 pages, 5 figures


💡 一句话要点

提出Diffusion-NPO,通过博弈论视角提升扩散模型与人类偏好对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 偏好对齐 强化学习 博弈论 纳什均衡

📋 核心要点

  1. 现有基于奖励的扩散模型对齐方法难以充分捕捉人类偏好的复杂性,限制了对齐效果。
  2. Diff.-NPO将扩散模型对齐问题建模为博弈,通过策略与自身的对抗实现更好的对齐。
  3. 实验表明,Diff.-NPO在文本到图像生成任务上显著优于现有基于偏好的对齐方法。

📝 摘要(中文)

本文从博弈论的角度提出了扩散模型对齐问题的新框架。现有基于偏好的扩散模型对齐方法依赖于奖励诱导的偏好信号,并且通常假设人类偏好可以用Bradley-Terry (BT)模型充分建模,但这可能无法捕捉人类偏好的全部复杂性。因此,本文提出了Diffusion Nash Preference Optimization (Diff.-NPO),这是一个用于扩散对齐的通用偏好框架。Diff.-NPO鼓励当前策略与自身对抗,以实现自我改进并达到更好的对齐效果。实验结果表明,Diff.-NPO在文本到图像生成任务上优于现有的基于偏好的扩散对齐方法。

🔬 方法详解

问题定义:现有基于偏好的扩散模型对齐方法,如DPO,依赖于奖励模型来推断人类偏好,并且通常假设人类偏好服从Bradley-Terry模型。然而,这种假设可能过于简化,无法捕捉人类偏好的复杂性和多样性,导致对齐效果受限。因此,需要一种更通用的偏好建模方法,避免对人类偏好分布的强假设。

核心思路:Diff.-NPO的核心思想是将扩散模型对齐问题视为一个博弈过程,其中扩散模型的目标是找到一个纳什均衡点,即当前策略与自身对抗时能够达到最优的状态。通过鼓励策略与自身博弈,模型能够不断自我改进,从而更好地与人类偏好对齐。这种方法避免了显式地建模奖励函数,而是直接优化策略以最大化偏好一致性。

技术框架:Diff.-NPO的整体框架包括以下几个关键步骤:1) 使用文本提示生成图像;2) 使用当前扩散模型生成两张图像;3) 收集人类对这两张图像的偏好数据;4) 使用收集到的偏好数据,通过纳什偏好优化算法更新扩散模型的参数。该框架的核心在于纳什偏好优化算法,它利用博弈论的思想,鼓励模型与自身对抗,从而实现自我改进。

关键创新:Diff.-NPO的关键创新在于其将扩散模型对齐问题建模为一个博弈过程,并利用纳什均衡的概念来指导模型的训练。与传统的基于奖励的对齐方法不同,Diff.-NPO避免了显式地建模奖励函数,而是直接优化策略以最大化偏好一致性。这种方法更加通用,能够更好地捕捉人类偏好的复杂性。

关键设计:Diff.-NPO的关键设计包括:1) 使用KL散度来约束策略更新,防止模型过度拟合偏好数据;2) 使用对抗训练的思想,鼓励模型生成更具挑战性的负样本,从而提高模型的鲁棒性;3) 使用合适的优化器和学习率,以确保模型的稳定训练。

📊 实验亮点

Diff.-NPO在文本到图像生成任务上取得了显著的性能提升。实验结果表明,Diff.-NPO在多个指标上优于现有的基于偏好的扩散对齐方法,例如DPO。具体来说,Diff.-NPO在图像质量、文本相关性和偏好一致性等方面均有明显提升,表明其能够更好地与人类偏好对齐。

🎯 应用场景

Diff.-NPO可应用于各种文本到图像生成任务,例如个性化图像生成、艺术创作、内容生成等。通过更好地与人类偏好对齐,Diff.-NPO可以生成更符合用户需求的图像,提高用户满意度,并促进相关应用的发展。未来,该方法还可以扩展到其他生成模型和任务中,例如文本生成、视频生成等。

📄 摘要(原文)

Reinforcement learning from human feedback (RLHF) has been popular for aligning text-to-image (T2I) diffusion models with human preferences. As a mainstream branch of RLHF, Direct Preference Optimization (DPO) offers a computationally efficient alternative that avoids explicit reward modeling and has been widely adopted in diffusion alignment. However, existing preference-based methods for diffusion alignment still rely on reward-induced preference signals and typically assume that human preferences can be adequately modeled by the Bradley--Terry (BT) model, which may fail to capture the full complexity of human preferences. In this paper, we formulate diffusion alignment from a game-theoretic perspective. We propose Diffusion Nash Preference Optimization (Diff.-NPO), an intuitive general preference framework for diffusion alignment. Diff.-NPO encourages the current policy to play against itself to achieve self improvement and lead to a better alignment. Empirically, we demonstrate the effectiveness of Diff.-NPO on the text-to-image generation task via various metrics. Diff.-NPO consistently outperforms existing preference-based diffusion alignment methods.