Towards General Preference Alignment: Diffusion Models at Nash Equilibrium

作者: Jiaming Hu, Jiamu Bai, Haoyu Wang, Debarghya Mukherjee, Ioannis Ch. Paschalidis

分类: cs.LG, cs.CV

发布日期: 2026-05-06

备注: 21 pages, 5 figures

💡 一句话要点

提出Diffusion-NPO，通过博弈论视角提升扩散模型与人类偏好对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 扩散模型 偏好对齐 强化学习 博弈论 纳什均衡

📋 核心要点

现有基于奖励的扩散模型对齐方法难以充分捕捉人类偏好的复杂性，限制了对齐效果。
Diff.-NPO将扩散模型对齐问题建模为博弈，通过策略与自身的对抗实现更好的对齐。
实验表明，Diff.-NPO在文本到图像生成任务上显著优于现有基于偏好的对齐方法。

📝 摘要（中文）

本文从博弈论的角度提出了扩散模型对齐问题的新框架。现有基于偏好的扩散模型对齐方法依赖于奖励诱导的偏好信号，并且通常假设人类偏好可以用Bradley-Terry (BT)模型充分建模，但这可能无法捕捉人类偏好的全部复杂性。因此，本文提出了Diffusion Nash Preference Optimization (Diff.-NPO)，这是一个用于扩散对齐的通用偏好框架。Diff.-NPO鼓励当前策略与自身对抗，以实现自我改进并达到更好的对齐效果。实验结果表明，Diff.-NPO在文本到图像生成任务上优于现有的基于偏好的扩散对齐方法。

🔬 方法详解

问题定义：现有基于偏好的扩散模型对齐方法，如DPO，依赖于奖励模型来推断人类偏好，并且通常假设人类偏好服从Bradley-Terry模型。然而，这种假设可能过于简化，无法捕捉人类偏好的复杂性和多样性，导致对齐效果受限。因此，需要一种更通用的偏好建模方法，避免对人类偏好分布的强假设。

核心思路：Diff.-NPO的核心思想是将扩散模型对齐问题视为一个博弈过程，其中扩散模型的目标是找到一个纳什均衡点，即当前策略与自身对抗时能够达到最优的状态。通过鼓励策略与自身博弈，模型能够不断自我改进，从而更好地与人类偏好对齐。这种方法避免了显式地建模奖励函数，而是直接优化策略以最大化偏好一致性。

技术框架：Diff.-NPO的整体框架包括以下几个关键步骤：1) 使用文本提示生成图像；2) 使用当前扩散模型生成两张图像；3) 收集人类对这两张图像的偏好数据；4) 使用收集到的偏好数据，通过纳什偏好优化算法更新扩散模型的参数。该框架的核心在于纳什偏好优化算法，它利用博弈论的思想，鼓励模型与自身对抗，从而实现自我改进。

关键创新：Diff.-NPO的关键创新在于其将扩散模型对齐问题建模为一个博弈过程，并利用纳什均衡的概念来指导模型的训练。与传统的基于奖励的对齐方法不同，Diff.-NPO避免了显式地建模奖励函数，而是直接优化策略以最大化偏好一致性。这种方法更加通用，能够更好地捕捉人类偏好的复杂性。

关键设计：Diff.-NPO的关键设计包括：1) 使用KL散度来约束策略更新，防止模型过度拟合偏好数据；2) 使用对抗训练的思想，鼓励模型生成更具挑战性的负样本，从而提高模型的鲁棒性；3) 使用合适的优化器和学习率，以确保模型的稳定训练。

📊 实验亮点

Diff.-NPO在文本到图像生成任务上取得了显著的性能提升。实验结果表明，Diff.-NPO在多个指标上优于现有的基于偏好的扩散对齐方法，例如DPO。具体来说，Diff.-NPO在图像质量、文本相关性和偏好一致性等方面均有明显提升，表明其能够更好地与人类偏好对齐。

🎯 应用场景

Diff.-NPO可应用于各种文本到图像生成任务，例如个性化图像生成、艺术创作、内容生成等。通过更好地与人类偏好对齐，Diff.-NPO可以生成更符合用户需求的图像，提高用户满意度，并促进相关应用的发展。未来，该方法还可以扩展到其他生成模型和任务中，例如文本生成、视频生成等。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) has been popular for aligning text-to-image (T2I) diffusion models with human preferences. As a mainstream branch of RLHF, Direct Preference Optimization (DPO) offers a computationally efficient alternative that avoids explicit reward modeling and has been widely adopted in diffusion alignment. However, existing preference-based methods for diffusion alignment still rely on reward-induced preference signals and typically assume that human preferences can be adequately modeled by the Bradley--Terry (BT) model, which may fail to capture the full complexity of human preferences. In this paper, we formulate diffusion alignment from a game-theoretic perspective. We propose Diffusion Nash Preference Optimization (Diff.-NPO), an intuitive general preference framework for diffusion alignment. Diff.-NPO encourages the current policy to play against itself to achieve self improvement and lead to a better alignment. Empirically, we demonstrate the effectiveness of Diff.-NPO on the text-to-image generation task via various metrics. Diff.-NPO consistently outperforms existing preference-based diffusion alignment methods.

Towards General Preference Alignment: Diffusion Models at Nash Equilibrium

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理