Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

作者: Gongye Liu, Bo Yang, Yida Zhi, Zhizhou Zhong, Lei Ke, Didan Deng, Han Gao, Yongxiang Huang, Kaihao Zhang, Hongbo Fu, Wenhan Luo

分类: cs.CV, cs.AI

发布日期: 2026-02-11

备注: Code: https://github.com/HKUST-C4G/diffusion-rm

💡 一句话要点

提出DiNa-LRM，一种扩散原生潜在奖励模型，提升扩散模型偏好优化效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 偏好优化 奖励模型 潜在空间 噪声校准

📋 核心要点

现有基于VLM的奖励函数计算成本高昂，且像素空间奖励与潜在扩散模型存在域不匹配问题。
DiNa-LRM直接在噪声扩散状态上进行偏好学习，利用噪声校准的Thurstone似然和时间步条件奖励头。
实验表明，DiNa-LRM在图像对齐任务上优于现有扩散模型奖励基线，并提升了偏好优化效率。

📝 摘要（中文）

扩散模型和Flow-Matching模型的偏好优化依赖于判别能力强且计算效率高的奖励函数。视觉-语言模型(VLM)已成为主要的奖励提供者，利用其丰富的多模态先验来指导对齐。然而，它们的计算和内存成本可能很高，并且通过像素空间奖励优化潜在扩散生成器会引入域不匹配，从而使对齐复杂化。本文提出了DiNa-LRM，一种扩散原生潜在奖励模型，它直接在噪声扩散状态上制定偏好学习。我们的方法引入了一种噪声校准的Thurstone似然，具有扩散噪声相关的uncertainty。DiNa-LRM利用预训练的潜在扩散骨干网络和一个时间步条件奖励头，并支持推理时噪声集成，为测试时缩放和鲁棒奖励提供了一种扩散原生机制。在图像对齐基准测试中，DiNa-LRM显著优于现有的基于扩散的奖励基线，并以一小部分的计算成本实现了与最先进的VLM竞争的性能。在偏好优化中，我们证明了DiNa-LRM改善了偏好优化动态，从而实现了更快、更资源高效的模型对齐。

🔬 方法详解

问题定义：论文旨在解决扩散模型偏好优化中，现有基于视觉-语言模型（VLM）的奖励函数计算成本高、效率低，以及像素空间奖励与潜在扩散模型之间存在域不匹配的问题。这些问题限制了扩散模型在需要人类偏好对齐的任务中的应用。

核心思路：论文的核心思路是设计一种扩散原生的潜在奖励模型（DiNa-LRM），直接在扩散过程的噪声状态上进行偏好学习。通过在潜在空间中进行奖励建模，避免了像素空间与潜在空间的域不匹配问题，并利用时间步信息来提高奖励的准确性和鲁棒性。

技术框架：DiNa-LRM的技术框架主要包括以下几个部分：1) 预训练的潜在扩散模型骨干网络，用于生成图像的潜在表示；2) 一个时间步条件奖励头，用于预测给定噪声水平下的奖励值；3) 噪声校准的Thurstone似然，用于建模人类偏好并训练奖励模型；4) 推理时噪声集成，用于提高奖励的鲁棒性。

关键创新：DiNa-LRM的关键创新在于：1) 提出了一种扩散原生的奖励建模方法，直接在噪声扩散状态上进行偏好学习，避免了域不匹配问题；2) 引入了噪声校准的Thurstone似然，考虑了扩散噪声对偏好判断的影响；3) 提出了推理时噪声集成方法，提高了奖励的鲁棒性。

关键设计：DiNa-LRM的关键设计包括：1) 使用预训练的潜在扩散模型（如Stable Diffusion）作为骨干网络，以利用其强大的生成能力；2) 奖励头采用小型神经网络，以降低计算成本；3) 噪声校准的Thurstone似然使用扩散时间步作为条件，以建模噪声水平对偏好判断的影响；4) 推理时噪声集成通过对不同噪声水平下的奖励值进行加权平均，以提高奖励的鲁棒性。

🖼️ 关键图片

📊 实验亮点

DiNa-LRM在图像对齐基准测试中显著优于现有的基于扩散的奖励基线，并以远低于VLM的计算成本实现了与其竞争的性能。实验表明，DiNa-LRM能够改善偏好优化动态，实现更快、更资源高效的模型对齐。例如，在特定任务上，DiNa-LRM能够将训练时间缩短至原来的1/3，同时保持或提升生成质量。

🎯 应用场景

DiNa-LRM可应用于各种需要人类偏好对齐的扩散模型应用，例如个性化图像生成、风格迁移、图像编辑等。该方法降低了偏好优化的计算成本，提高了优化效率，使得扩散模型能够更好地满足用户的个性化需求，具有广泛的应用前景。

📄 摘要（原文）

Preference optimization for diffusion and flow-matching models relies on reward functions that are both discriminatively robust and computationally efficient. Vision-Language Models (VLMs) have emerged as the primary reward provider, leveraging their rich multimodal priors to guide alignment. However, their computation and memory cost can be substantial, and optimizing a latent diffusion generator through a pixel-space reward introduces a domain mismatch that complicates alignment. In this paper, we propose DiNa-LRM, a diffusion-native latent reward model that formulates preference learning directly on noisy diffusion states. Our method introduces a noise-calibrated Thurstone likelihood with diffusion-noise-dependent uncertainty. DiNa-LRM leverages a pretrained latent diffusion backbone with a timestep-conditioned reward head, and supports inference-time noise ensembling, providing a diffusion-native mechanism for test-time scaling and robust rewarding. Across image alignment benchmarks, DiNa-LRM substantially outperforms existing diffusion-based reward baselines and achieves performance competitive with state-of-the-art VLMs at a fraction of the computational cost. In preference optimization, we demonstrate that DiNa-LRM improves preference optimization dynamics, enabling faster and more resource-efficient model alignment.

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理