OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

作者: Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu

分类: cs.CV

发布日期: 2025-08-28

备注: project url: https://one-reward.github.io

💡 一句话要点

OneReward：通过多任务人类偏好学习统一的掩码引导图像生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像生成 强化学习 多任务学习 视觉-语言模型 掩码引导 图像编辑

📋 核心要点

现有掩码引导图像生成方法依赖于任务特定的监督微调，泛化能力和训练效率受限。
OneReward框架利用单一视觉-语言模型作为奖励模型，通过多任务强化学习提升生成能力。
Seedream 3.0 Fill模型基于OneReward，无需任务特定微调，在多个任务上超越现有方法。

📝 摘要（中文）

本文介绍了一种统一的强化学习框架OneReward，它仅使用一个奖励模型，即可增强模型在不同评估标准下跨多个任务的生成能力。通过采用单个视觉-语言模型（VLM）作为生成奖励模型，该模型可以区分给定任务和给定评估标准的胜者和败者，从而有效地应用于多任务生成模型，尤其是在具有不同数据和多样化任务目标的上下文中。我们利用OneReward进行掩码引导的图像生成，该生成可以进一步分为几个子任务，例如图像填充、图像扩展、对象移除和文本渲染，其中涉及二进制掩码作为编辑区域。虽然这些特定领域的任务共享相同的条件范式，但它们在底层数据分布和评估指标上差异很大。现有方法通常依赖于特定于任务的监督微调（SFT），这限制了泛化和训练效率。在OneReward的基础上，我们开发了Seedream 3.0 Fill，这是一种通过多任务强化学习直接在预训练的基础模型上训练的掩码引导生成模型，无需特定于任务的SFT。实验结果表明，我们的统一编辑模型在多个评估维度上始终优于商业和开源竞争对手，如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。

🔬 方法详解

问题定义：论文旨在解决掩码引导图像生成中，现有方法依赖于任务特定监督微调（SFT）导致的泛化能力差和训练效率低的问题。不同子任务（如图像填充、扩展、移除等）的数据分布和评估指标差异大，使得单一模型难以兼顾所有任务的性能。

核心思路：论文的核心思路是利用一个统一的奖励模型（OneReward）来指导多任务强化学习，从而避免了任务特定的SFT。OneReward模型基于视觉-语言模型（VLM），能够区分不同任务和评估标准下的生成结果的优劣，为强化学习提供有效的奖励信号。

技术框架：整体框架包含一个预训练的基础生成模型和一个OneReward奖励模型。首先，使用预训练模型生成图像。然后，OneReward模型评估生成图像的质量，并给出奖励信号。最后，使用强化学习算法（例如PPO）更新生成模型的参数，使其能够生成更高质量的图像。整个过程无需任务特定的SFT。

关键创新：最重要的技术创新点在于OneReward奖励模型的统一性。传统的强化学习方法通常需要为每个任务设计单独的奖励函数，而OneReward模型通过利用VLM的强大能力，能够处理多种任务和评估标准，从而大大简化了训练流程，并提高了模型的泛化能力。

关键设计：OneReward模型使用预训练的视觉-语言模型（VLM）作为基础架构。VLM接收生成图像和任务描述作为输入，并输出一个奖励值，表示生成图像的质量。奖励值的计算方式可以根据具体的任务和评估标准进行调整。例如，对于图像填充任务，可以使用CLIP相似度来衡量生成图像与周围区域的一致性。强化学习算法采用Proximal Policy Optimization (PPO)。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于OneReward框架的Seedream 3.0 Fill模型在多个掩码引导图像生成任务上，显著优于商业和开源的竞争对手，如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。这证明了该方法在多任务学习和泛化能力方面的优势。

🎯 应用场景

该研究成果可广泛应用于图像编辑、内容生成、艺术创作等领域。例如，可以用于智能图像修复、图像扩展、物体移除、文本渲染等任务。该方法有望提升图像生成模型的智能化水平和用户体验，并为创意设计提供更强大的工具。

📄 摘要（原文）

In this paper, we introduce OneReward, a unified reinforcement learning framework that enhances the model's generative capabilities across multiple tasks under different evaluation criteria using only \textit{One Reward} model. By employing a single vision-language model (VLM) as the generative reward model, which can distinguish the winner and loser for a given task and a given evaluation criterion, it can be effectively applied to multi-task generation models, particularly in contexts with varied data and diverse task objectives. We utilize OneReward for mask-guided image generation, which can be further divided into several sub-tasks such as image fill, image extend, object removal, and text rendering, involving a binary mask as the edit area. Although these domain-specific tasks share same conditioning paradigm, they differ significantly in underlying data distributions and evaluation metrics. Existing methods often rely on task-specific supervised fine-tuning (SFT), which limits generalization and training efficiency. Building on OneReward, we develop Seedream 3.0 Fill, a mask-guided generation model trained via multi-task reinforcement learning directly on a pre-trained base model, eliminating the need for task-specific SFT. Experimental results demonstrate that our unified edit model consistently outperforms both commercial and open-source competitors, such as Ideogram, Adobe Photoshop, and FLUX Fill [Pro], across multiple evaluation dimensions. Code and model are available at: https://one-reward.github.io

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理