Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
作者: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang
分类: cs.CV
发布日期: 2026-03-12
💡 一句话要点
FIRM:通过鲁棒奖励建模和强化学习实现忠实图像编辑和生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 奖励模型 强化学习 图像编辑 文本到图像生成 数据集构建 指令遵循
📋 核心要点
- 现有图像编辑和文本到图像生成中的奖励模型存在幻觉问题,导致优化过程被误导。
- FIRM框架通过构建高质量评分数据集和训练专门的奖励模型,提供更准确的指导。
- 实验表明,FIRM模型在图像编辑和生成任务中,显著提升了保真度和指令遵循度。
📝 摘要(中文)
本文提出FIRM(Faithful Image Reward Modeling)框架,旨在开发鲁棒的奖励模型,为忠实图像生成和编辑提供准确可靠的指导。首先,设计定制的数据收集流程,构建高质量的评分数据集。具体而言,编辑任务通过执行和一致性进行评估,而生成任务主要通过指令遵循进行评估。利用这些流程,收集了FIRM-Edit-370K和FIRM-Gen-293K数据集,并训练了专门的奖励模型(FIRM-Edit-8B和FIRM-Gen-8B),以准确反映这些标准。其次,引入FIRM-Bench,这是一个专门为编辑和生成评论家设计的综合基准。评估表明,与现有指标相比,我们的模型与人类判断具有更高的对齐性。此外,为了将这些评论家无缝集成到强化学习流程中,我们制定了一种新颖的“Base-and-Bonus”奖励策略,以平衡相互竞争的目标:用于编辑的一致性调制执行(CME)和用于生成的质量调制对齐(QMA)。在该框架的支持下,我们的模型FIRM-Qwen-Edit和FIRM-SD3.5实现了显著的性能突破。综合实验表明,FIRM减轻了幻觉,为现有通用模型在保真度和指令遵循方面建立了新标准。所有数据集、模型和代码均已公开。
🔬 方法详解
问题定义:现有基于强化学习的图像编辑和文本到图像生成方法依赖于奖励模型作为评论家,但这些奖励模型经常产生幻觉,给出噪声评分,从而误导优化过程。现有方法缺乏鲁棒性,难以保证生成图像的保真度和对指令的准确遵循。
核心思路:FIRM的核心思路是构建更鲁棒、更准确的奖励模型,从而为强化学习过程提供更可靠的指导。通过精心设计的数据收集流程和训练策略,使奖励模型能够更好地反映人类对图像质量和指令遵循的判断。
技术框架:FIRM框架包含以下主要模块:1) 数据收集:设计专门的数据收集流程,分别针对图像编辑和文本到图像生成任务,构建高质量的评分数据集(FIRM-Edit-370K和FIRM-Gen-293K)。2) 奖励模型训练:基于收集的数据集,训练专门的奖励模型(FIRM-Edit-8B和FIRM-Gen-8B)。3) 强化学习集成:提出“Base-and-Bonus”奖励策略,将训练好的奖励模型集成到强化学习流程中,用于指导图像编辑和生成。4) 评估基准:构建FIRM-Bench,用于评估编辑和生成评论家的性能。
关键创新:1) 针对图像编辑和文本到图像生成任务,设计了定制的数据收集流程,构建了高质量的评分数据集。2) 提出了“Base-and-Bonus”奖励策略,平衡了强化学习中的多个目标,例如一致性和执行力,质量和对齐。3) 构建了FIRM-Bench,这是一个专门用于评估编辑和生成评论家的综合基准。
关键设计:1) 数据收集流程:图像编辑任务通过执行和一致性进行评估,文本到图像生成任务主要通过指令遵循进行评估。2) 奖励模型训练:使用8B参数的Transformer模型作为奖励模型的基础架构。3) “Base-and-Bonus”奖励策略:对于图像编辑,采用一致性调制执行(CME);对于文本到图像生成,采用质量调制对齐(QMA)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FIRM模型在图像编辑和文本到图像生成任务中取得了显著的性能提升。与现有模型相比,FIRM模型能够更好地减轻幻觉,生成更符合人类判断的图像。具体而言,FIRM-Qwen-Edit和FIRM-SD3.5模型在保真度和指令遵循度方面均优于现有通用模型,为相关领域的研究建立了新的标准。
🎯 应用场景
该研究成果可广泛应用于图像编辑、内容生成、虚拟现实、游戏开发等领域。通过提高图像编辑和生成模型的保真度和指令遵循度,可以提升用户体验,降低人工干预成本,并为创意内容的自动化生成提供更强大的支持。未来,该技术有望应用于更复杂的场景,例如视频编辑、3D模型生成等。
📄 摘要(原文)
Reinforcement learning (RL) has emerged as a promising paradigm for enhancing image editing and text-to-image (T2I) generation. However, current reward models, which act as critics during RL, often suffer from hallucinations and assign noisy scores, inherently misguiding the optimization process. In this paper, we present FIRM (Faithful Image Reward Modeling), a comprehensive framework that develops robust reward models to provide accurate and reliable guidance for faithful image generation and editing. First, we design tailored data curation pipelines to construct high-quality scoring datasets. Specifically, we evaluate editing using both execution and consistency, while generation is primarily assessed via instruction following. Using these pipelines, we collect the FIRM-Edit-370K and FIRM-Gen-293K datasets, and train specialized reward models (FIRM-Edit-8B and FIRM-Gen-8B) that accurately reflect these criteria. Second, we introduce FIRM-Bench, a comprehensive benchmark specifically designed for editing and generation critics. Evaluations demonstrate that our models achieve superior alignment with human judgment compared to existing metrics. Furthermore, to seamlessly integrate these critics into the RL pipeline, we formulate a novel "Base-and-Bonus" reward strategy that balances competing objectives: Consistency-Modulated Execution (CME) for editing and Quality-Modulated Alignment (QMA) for generation. Empowered by this framework, our resulting models FIRM-Qwen-Edit and FIRM-SD3.5 achieve substantial performance breakthroughs. Comprehensive experiments demonstrate that FIRM mitigates hallucinations, establishing a new standard for fidelity and instruction adherence over existing general models. All of our datasets, models, and code have been publicly available at https://firm-reward.github.io.