MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching
作者: Jiahui Huang, Yasi Zhang, Tianyu Chen, Shu Wang, Jianwen Xie, Oscar Leong, Mingyuan Zhou, Nanzhu Wang, Ying Nian Wu
分类: cs.CV
发布日期: 2026-06-01
💡 一句话要点
MT-EditFlow:基于流匹配的强化学习框架,用于多轮图像编辑,提升交互式编辑质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多轮图像编辑 强化学习 流匹配 奖励函数优化 视觉语言模型
📋 核心要点
- 现有图像编辑模型在多轮交互式编辑中表现不佳,存在单步失败影响全局以及误差累积的问题。
- 提出MT-EditFlow,一个基于流匹配的强化学习框架,通过优化奖励信号来提升多轮图像编辑的质量。
- 实验表明,MT-EditFlow显著提升了多种基础模型的性能,并在多轮编辑任务中超越了现有最佳模型。
📝 摘要(中文)
近年来,基于指令的图像编辑取得了显著进展,模型已能处理实际编辑需求。然而,主要针对单轮编辑训练的模型在多轮编辑中表现不佳,这种多轮编辑是用户基于模型先前输出迭代优化图像的自然交互方式。这种失败源于“全有或全无”的要求,即单次失败会影响整个序列,以及暴露偏差导致的累积编辑错误。为了解决这些挑战,我们引入了MT-EditFlow,一个流匹配强化学习框架,旨在优化序列图像编辑的奖励信号。MT-EditFlow将多轮视角与多奖励公式相结合,为基于GRPO和NFT的强化学习方法提供统一的结构。我们通过研究turn-level聚合的有效评分策略、权衡奖励偏差和方差的VLM推理模式以及防止奖励黑客的优势融合级别,系统地分析和优化奖励信号。我们的研究结果表明,在整个编辑轨迹中广播聚合优势有效地弥合了局部规划和全局多轮任务成功之间的差距。大量实验表明,MT-EditFlow显著提高了各种基础模型的性能。值得注意的是,它在turn-3的整体性能上将FLUX.1-Kontext-dev提高了6.85个点,超过了Qwen-Image-Edit等最先进的开源模型。通过保持高边际成功率并减少暴露偏差,MT-EditFlow为视觉内容创作中更可靠、更自然的人工智能协作奠定了基础。
🔬 方法详解
问题定义:论文旨在解决多轮图像编辑任务中,现有模型由于单轮训练的局限性,在连续交互过程中出现的错误累积和性能下降问题。现有方法难以有效利用历史信息,导致编辑质量不稳定,用户体验不佳。
核心思路:论文的核心思路是利用强化学习来优化多轮编辑过程中的奖励信号,从而引导模型学习更有效的编辑策略。通过将多轮编辑视为一个序列决策问题,模型可以根据之前的编辑结果和用户指令,逐步优化图像,避免错误累积。
技术框架:MT-EditFlow框架包含以下主要模块:1) 图像编辑模型(作为Agent),负责根据指令和当前图像生成编辑后的图像;2) 奖励函数,用于评估每一轮编辑的质量,并提供反馈信号;3) 强化学习算法,用于优化编辑模型的策略,使其能够生成更高质量的编辑结果。框架采用流匹配方法,将编辑过程建模为连续的流,并利用强化学习来学习最优的流轨迹。
关键创新:论文的关键创新在于将流匹配和强化学习相结合,提出了一种新的多轮图像编辑框架。通过优化奖励信号,模型可以更好地利用历史信息,避免错误累积,从而提高编辑质量。此外,论文还提出了一种新的奖励函数设计方法,可以更准确地评估编辑质量,并提供更有效的反馈信号。
关键设计:论文的关键设计包括:1) 使用视觉语言模型(VLM)进行奖励推理,权衡奖励的偏差和方差;2) 设计turn-level聚合的评分策略,有效利用每一轮的编辑信息;3) 采用优势函数融合,防止奖励黑客现象;4) 在整个编辑轨迹中广播聚合优势,弥合局部规划和全局任务成功之间的差距。
🖼️ 关键图片
📊 实验亮点
MT-EditFlow在多轮图像编辑任务中取得了显著的性能提升。具体而言,在turn-3的整体性能上,MT-EditFlow将FLUX.1-Kontext-dev模型提高了6.85个点,超越了Qwen-Image-Edit等最先进的开源模型。实验结果表明,MT-EditFlow能够有效减少暴露偏差,提高编辑质量,并为多轮交互式图像编辑提供更可靠的基础。
🎯 应用场景
该研究成果可应用于图像编辑软件、在线设计平台、虚拟现实内容创作等领域。通过提供更自然、更可靠的多轮交互式图像编辑功能,可以显著提升用户体验,降低创作门槛,并促进视觉内容的创新和发展。未来,该技术有望应用于更广泛的视觉内容生成和编辑任务中。
📄 摘要(原文)
Recent breakthroughs in instruction-based image editing have captured significant attention, as models are now capable of handling real-world editing demands with the practicality required by everyday users. However, editing models trained primarily for single-turn edits often break down in multi-turn editing--the natural interactive setting where a user iteratively refines an image based on the model's own previous outputs. This failure stems from the all-or-nothing requirement, where a single failed turn compromises the entire sequence, and error propagation, where exposure bias leads to compounding editing errors. To address these challenges, we introduce MT-EditFlow, a flow-matching reinforcement learning framework designed to optimize reward signals for sequential image editing. MT-EditFlow integrates a multi-turn perspective with a multi-reward formulation to provide a unified structure applicable to both GRPO and NFT-based reinforcement learning methods. We systematically analyze and optimize the reward signal by investigating effective scoring strategies for turn-level aggregation, VLM reasoning modes to trade off reward bias and variance, and advantage fusion levels to prevent reward hacking. Our findings reveal that broadcasting the aggregated advantage across the entire editing trajectory effectively bridges the gap between local planning and global multi-turn task success. Extensive experiments demonstrate that MT-EditFlow significantly improves performance across diverse base models. Notably, it boosts FLUX.1-Kontext-dev by 6.85 points in turn-3 overall performance, surpassing state-of-the-art open-source models such as Qwen-Image-Edit. By maintaining high marginal success rates and reducing exposure bias, MT-EditFlow provides a foundation for more reliable and natural human-AI collaboration in visual content creation.