Leveraging Verifier-Based Reinforcement Learning in Image Editing
作者: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang
分类: cs.CV
发布日期: 2026-04-30
💡 一句话要点
提出Edit-R1框架,利用基于验证器的强化学习提升图像编辑效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像编辑 强化学习 奖励模型 思维链 推理验证
📋 核心要点
- 现有图像编辑奖励模型缺乏细粒度检查,导致奖励偏差,无法满足不同指令要求。
- Edit-R1构建基于思维链的推理奖励模型,将指令分解为原则进行评估,提供可解释的细粒度奖励。
- 实验表明,Edit-R1优于现有VLM奖励模型,并能有效提升图像编辑模型的性能。
📝 摘要(中文)
本文提出了一种名为Edit-R1的框架,旨在解决图像编辑中缺乏通用且鲁棒的奖励模型的问题。Edit-R1的核心是构建一个基于思维链(CoT)验证器的推理奖励模型(RRM),并将其应用于下游图像编辑任务。该RRM将指令分解为不同的原则,针对每个原则评估编辑后的图像,并将这些检查结果聚合为可解释的、细粒度的奖励。为了构建RRM,首先使用监督微调(SFT)作为“冷启动”来生成CoT奖励轨迹。然后,引入组对比偏好优化(GCPO),这是一种强化学习算法,利用人类成对偏好数据来增强点态RRM。构建RRM后,使用GRPO训练具有这种不可微但强大的奖励模型的编辑模型。实验表明,Edit-RRM超越了强大的VLM(如Seed-1.5-VL和Seed-1.6-VL),并且性能随着参数规模的增加而持续提高。此外,Edit-R1还为FLUX.1-kontext等编辑模型带来了增益,突显了其在增强图像编辑方面的有效性。
🔬 方法详解
问题定义:图像编辑任务缺乏一个通用的、鲁棒的奖励模型。现有的奖励模型通常只给出整体评分,而忽略了指令中的具体要求,导致奖励存在偏差,无法准确反映编辑质量。这使得利用强化学习优化图像编辑模型变得困难。
核心思路:核心思路是将一个简单的打分器转变为一个具有推理能力的验证器。通过构建一个基于思维链(Chain-of-Thought, CoT)的推理奖励模型(Reasoning Reward Model, RRM),将复杂的编辑指令分解为多个可验证的原则,并针对每个原则对编辑后的图像进行评估。最终将这些细粒度的评估结果聚合起来,形成一个可解释的奖励信号。
技术框架:Edit-R1框架主要包含两个阶段:1) 构建推理奖励模型(RRM);2) 利用RRM训练图像编辑模型。RRM的构建首先使用监督微调(SFT)进行冷启动,生成CoT奖励轨迹。然后,使用组对比偏好优化(GCPO)算法,利用人类的成对偏好数据来强化RRM。在获得RRM后,使用GRPO算法训练图像编辑模型,利用RRM提供的奖励信号来指导编辑模型的优化。
关键创新:最重要的创新点在于提出了基于思维链的推理奖励模型(RRM)。与传统的整体评分奖励模型不同,RRM能够将复杂的编辑指令分解为多个可验证的原则,并针对每个原则进行细粒度的评估。这种方法能够更准确地反映编辑质量,并提供更具解释性的奖励信号。
关键设计:在RRM的构建过程中,使用了监督微调(SFT)和组对比偏好优化(GCPO)两种技术。SFT用于初始化RRM,使其具备初步的推理能力。GCPO则利用人类的偏好数据来进一步优化RRM,使其能够更好地反映人类对编辑质量的判断。此外,还使用了GRPO算法来训练图像编辑模型,该算法能够有效地利用RRM提供的非可微奖励信号。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Edit-RRM在作为图像编辑奖励模型时,超越了强大的VLM(如Seed-1.5-VL和Seed-1.6-VL)。此外,研究还观察到明显的性能扩展趋势,即随着模型参数规模从3B增加到7B,性能持续提升。Edit-R1还为FLUX.1-kontext等编辑模型带来了性能增益,验证了其有效性。
🎯 应用场景
该研究成果可应用于各种图像编辑场景,例如图像修复、风格迁移、对象替换等。通过提供更准确和可解释的奖励信号,可以显著提升图像编辑模型的性能和用户体验。未来,该方法还可以扩展到其他生成式任务中,例如视频编辑和3D模型生成。
📄 摘要(原文)
While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.