Unified Personalized Reward Model for Vision Generation

作者: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang

分类: cs.CV

发布日期: 2026-02-02

备注: Website: https://codegoat24.github.io/UnifiedReward/flex

💡 一句话要点

提出UnifiedReward-Flex，用于提升视觉生成中个性化奖励模型的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 视觉生成 个性化 上下文自适应 直接偏好优化 多模态学习 分层评估

📋 核心要点

现有奖励模型在视觉生成中存在不足，无法捕捉内容相关的视觉线索，与人类主观偏好存在偏差。
UnifiedReward-Flex通过结合奖励建模与上下文自适应推理，动态构建分层评估，模拟人类评估过程。
该模型通过两阶段训练，从VLM中提取推理轨迹并进行DPO优化，实验证明其在图像和视频生成中表现优异。

📝 摘要（中文）

本文提出了一种用于视觉生成的统一个性化奖励模型UnifiedReward-Flex，旨在解决现有奖励模型（RM）的局限性。现有RM通常采用一刀切的方式，假设单一的偏好分布或依赖固定的评估标准，导致对特定内容的视觉线索不敏感，与主观和上下文相关的人类偏好存在系统性偏差。UnifiedReward-Flex模拟人类评估过程，将奖励建模与灵活的、上下文自适应的推理相结合。它首先解释语义意图并基于视觉证据进行定位，然后通过实例化预定义和自生成的高级维度下的细粒度标准，动态构建分层评估。该模型采用两阶段训练流程：首先从高级闭源VLMs中提取结构化、高质量的推理轨迹，以引导SFT，赋予模型灵活的、上下文自适应的推理能力；然后，在精心策划的偏好对上执行直接偏好优化（DPO），以进一步加强推理的保真度和判别对齐。实验结果表明，将UnifiedReward-Flex集成到GRPO框架中进行图像和视频合成，能够显著提升性能。

🔬 方法详解

问题定义：现有视觉生成奖励模型通常采用“一刀切”的策略，要么假设单一的偏好分布，要么依赖固定的评估标准。这使得它们无法捕捉到与内容相关的细微视觉线索，导致与人类主观、上下文相关的偏好不一致。因此，如何设计一个能够理解语义意图，并根据视觉内容进行灵活评估的奖励模型是本文要解决的核心问题。

核心思路：本文的核心思路是模拟人类的评估过程，将奖励建模与灵活的、上下文自适应的推理相结合。具体来说，模型首先理解prompt的语义意图，然后在视觉内容中寻找证据，并动态地构建一个分层的评估体系，该体系包含预定义和自生成的高级维度下的细粒度标准。这种方式使得模型能够根据不同的prompt和视觉内容，进行个性化的评估。

技术框架：UnifiedReward-Flex的整体框架包含以下几个主要步骤：1) 输入prompt和生成的视觉内容；2) 模型解释prompt的语义意图，并在视觉内容中寻找证据；3) 模型动态构建分层评估体系，包含预定义和自生成的高级维度下的细粒度标准；4) 模型根据评估体系，对视觉内容进行打分，输出奖励值。该模型采用两阶段训练流程：首先进行监督微调（SFT），然后进行直接偏好优化（DPO）。

关键创新：本文最重要的创新点在于提出了一个统一的、个性化的奖励模型，该模型能够进行灵活的、上下文自适应的推理。与现有方法相比，UnifiedReward-Flex不再依赖于固定的评估标准，而是能够根据不同的prompt和视觉内容，动态地构建评估体系。这种方式使得模型能够更好地捕捉到与内容相关的细微视觉线索，从而更准确地评估视觉内容的质量。

关键设计：在训练阶段，首先从高级闭源VLMs中提取结构化、高质量的推理轨迹，用于监督微调（SFT），使模型具备灵活的推理能力。然后，使用精心设计的偏好对进行直接偏好优化（DPO），以进一步提升模型的推理保真度和判别能力。损失函数的设计主要围绕DPO展开，旨在最大化模型对高质量视觉内容的偏好。

📊 实验亮点

实验结果表明，将UnifiedReward-Flex集成到GRPO框架中，能够显著提升图像和视频合成的质量。具体来说，在图像生成任务中，使用UnifiedReward-Flex的GRPO模型在FID和CLIP Score等指标上均优于其他基线模型。在视频合成任务中，该模型生成的视频在视觉质量和流畅度方面也表现出明显的优势。

🎯 应用场景

该研究成果可广泛应用于图像和视频生成领域，例如文本到图像生成、图像编辑、视频合成等。通过更准确地评估生成内容的质量，可以显著提升生成结果的真实性和符合人类偏好的程度。未来，该方法还可以应用于其他多模态生成任务，例如音频生成、3D模型生成等。

📄 摘要（原文）

Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.

Unified Personalized Reward Model for Vision Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理