Unified Personalized Reward Model for Vision Generation
作者: Yibin Wang, Yuhang Zang, Feng Han, Jiazi Bu, Yujie Zhou, Cheng Jin, Jiaqi Wang
分类: cs.CV
发布日期: 2026-02-02
备注: Website: https://codegoat24.github.io/UnifiedReward/flex
💡 一句话要点
提出UnifiedReward-Flex,用于提升视觉生成中个性化奖励模型的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 视觉生成 个性化 上下文自适应 直接偏好优化 多模态学习 分层评估
📋 核心要点
- 现有奖励模型在视觉生成中存在不足,无法捕捉内容相关的视觉线索,与人类主观偏好存在偏差。
- UnifiedReward-Flex通过结合奖励建模与上下文自适应推理,动态构建分层评估,模拟人类评估过程。
- 该模型通过两阶段训练,从VLM中提取推理轨迹并进行DPO优化,实验证明其在图像和视频生成中表现优异。
📝 摘要(中文)
本文提出了一种用于视觉生成的统一个性化奖励模型UnifiedReward-Flex,旨在解决现有奖励模型(RM)的局限性。现有RM通常采用一刀切的方式,假设单一的偏好分布或依赖固定的评估标准,导致对特定内容的视觉线索不敏感,与主观和上下文相关的人类偏好存在系统性偏差。UnifiedReward-Flex模拟人类评估过程,将奖励建模与灵活的、上下文自适应的推理相结合。它首先解释语义意图并基于视觉证据进行定位,然后通过实例化预定义和自生成的高级维度下的细粒度标准,动态构建分层评估。该模型采用两阶段训练流程:首先从高级闭源VLMs中提取结构化、高质量的推理轨迹,以引导SFT,赋予模型灵活的、上下文自适应的推理能力;然后,在精心策划的偏好对上执行直接偏好优化(DPO),以进一步加强推理的保真度和判别对齐。实验结果表明,将UnifiedReward-Flex集成到GRPO框架中进行图像和视频合成,能够显著提升性能。
🔬 方法详解
问题定义:现有视觉生成奖励模型通常采用“一刀切”的策略,要么假设单一的偏好分布,要么依赖固定的评估标准。这使得它们无法捕捉到与内容相关的细微视觉线索,导致与人类主观、上下文相关的偏好不一致。因此,如何设计一个能够理解语义意图,并根据视觉内容进行灵活评估的奖励模型是本文要解决的核心问题。
核心思路:本文的核心思路是模拟人类的评估过程,将奖励建模与灵活的、上下文自适应的推理相结合。具体来说,模型首先理解prompt的语义意图,然后在视觉内容中寻找证据,并动态地构建一个分层的评估体系,该体系包含预定义和自生成的高级维度下的细粒度标准。这种方式使得模型能够根据不同的prompt和视觉内容,进行个性化的评估。
技术框架:UnifiedReward-Flex的整体框架包含以下几个主要步骤:1) 输入prompt和生成的视觉内容;2) 模型解释prompt的语义意图,并在视觉内容中寻找证据;3) 模型动态构建分层评估体系,包含预定义和自生成的高级维度下的细粒度标准;4) 模型根据评估体系,对视觉内容进行打分,输出奖励值。该模型采用两阶段训练流程:首先进行监督微调(SFT),然后进行直接偏好优化(DPO)。
关键创新:本文最重要的创新点在于提出了一个统一的、个性化的奖励模型,该模型能够进行灵活的、上下文自适应的推理。与现有方法相比,UnifiedReward-Flex不再依赖于固定的评估标准,而是能够根据不同的prompt和视觉内容,动态地构建评估体系。这种方式使得模型能够更好地捕捉到与内容相关的细微视觉线索,从而更准确地评估视觉内容的质量。
关键设计:在训练阶段,首先从高级闭源VLMs中提取结构化、高质量的推理轨迹,用于监督微调(SFT),使模型具备灵活的推理能力。然后,使用精心设计的偏好对进行直接偏好优化(DPO),以进一步提升模型的推理保真度和判别能力。损失函数的设计主要围绕DPO展开,旨在最大化模型对高质量视觉内容的偏好。
📊 实验亮点
实验结果表明,将UnifiedReward-Flex集成到GRPO框架中,能够显著提升图像和视频合成的质量。具体来说,在图像生成任务中,使用UnifiedReward-Flex的GRPO模型在FID和CLIP Score等指标上均优于其他基线模型。在视频合成任务中,该模型生成的视频在视觉质量和流畅度方面也表现出明显的优势。
🎯 应用场景
该研究成果可广泛应用于图像和视频生成领域,例如文本到图像生成、图像编辑、视频合成等。通过更准确地评估生成内容的质量,可以显著提升生成结果的真实性和符合人类偏好的程度。未来,该方法还可以应用于其他多模态生成任务,例如音频生成、3D模型生成等。
📄 摘要(原文)
Recent advancements in multimodal reward models (RMs) have significantly propelled the development of visual generation. Existing frameworks typically adopt Bradley-Terry-style preference modeling or leverage generative VLMs as judges, and subsequently optimize visual generation models via reinforcement learning. However, current RMs suffer from inherent limitations: they often follow a one-size-fits-all paradigm that assumes a monolithic preference distribution or relies on fixed evaluation rubrics. As a result, they are insensitive to content-specific visual cues, leading to systematic misalignment with subjective and context-dependent human preferences. To this end, inspired by human assessment, we propose UnifiedReward-Flex, a unified personalized reward model for vision generation that couples reward modeling with flexible and context-adaptive reasoning. Specifically, given a prompt and the generated visual content, it first interprets the semantic intent and grounds on visual evidence, then dynamically constructs a hierarchical assessment by instantiating fine-grained criteria under both predefined and self-generated high-level dimensions. Our training pipeline follows a two-stage process: (1) we first distill structured, high-quality reasoning traces from advanced closed-source VLMs to bootstrap SFT, equipping the model with flexible and context-adaptive reasoning behaviors; (2) we then perform direct preference optimization (DPO) on carefully curated preference pairs to further strengthen reasoning fidelity and discriminative alignment. To validate the effectiveness, we integrate UnifiedReward-Flex into the GRPO framework for image and video synthesis, and extensive results demonstrate its superiority.