ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning
作者: Honghua Chen, Zitong Xu, Huiyu Duan, Xinyun Zhang, Xiongkuo Min, Guangtao Zhai
分类: cs.CV
发布日期: 2026-05-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReasonEdit框架:构建大规模思维链数据集并利用强化学习实现可解释的图像编辑评估
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像编辑评估 思维链 多模态大模型 强化学习 人类偏好对齐 可解释人工智能
📋 核心要点
- 现有图像编辑评估方法多依赖单一标量分数,缺乏对编辑过程的逻辑解释,难以满足复杂编辑任务的深度评估需求。
- 提出ReasonEdit-22K数据集与RE-Reward模型,通过引入思维链(CoT)数据,利用多模态大模型实现对编辑结果的逻辑化、可解释性评估。
- 采用GRPO强化学习算法训练评估模型,实验证明其在人类偏好对齐及跨基准泛化能力上均优于现有方法,提升了评估的可信度。
📝 摘要(中文)
文本引导的图像编辑(TIE)模型虽进展显著,但编辑结果常伴随伪影、非预期修改及审美欠佳等问题。现有评估方法多依赖标量分数,缺乏可解释性,主要归因于高质量解释数据集与有效奖励模型的缺失。为此,本文提出了ReasonEdit-22K,这是首个包含2.2万张编辑图像、11.3万条思维链(CoT)样本及130万条人类逻辑性、准确性与实用性判断的数据集。基于此,本文开发了RE-Reward模型,利用多模态大语言模型(MLLM)提供人类对齐的反馈。进一步地,通过RE-Reward的奖励信号与组相对策略优化(GRPO)算法,训练出ReasonEdit评估模型。实验表明,该模型在人类偏好对齐与跨基准泛化方面表现优异,能生成高质量的可解释性评估文本,显著提升了图像编辑评估的透明度与可信度。
🔬 方法详解
问题定义:当前TIE评估体系严重依赖标量分数,导致评估过程“黑盒化”,无法明确指出编辑结果中存在的伪影、语义偏移或逻辑错误,限制了模型迭代的针对性。
核心思路:引入思维链(CoT)机制,将图像编辑评估转化为多模态推理任务。通过构建大规模高质量解释数据集,训练一个能够模拟人类逻辑判断的奖励模型,从而实现对编辑质量的细粒度、可解释性评估。
技术框架:整体框架包含三个阶段:首先构建包含图像-解释-人类反馈的ReasonEdit-22K数据集;其次训练基于MLLM的RE-Reward奖励模型,用于量化评估逻辑性与准确性;最后利用GRPO算法对评估模型进行强化学习微调,使其输出符合人类偏好的评估文本。
关键创新:首次将思维链引入图像编辑评估领域,通过大规模人类反馈数据对齐模型推理逻辑,打破了传统评估方法仅输出单一分数的局限,实现了从“结果评估”到“逻辑评估”的范式转变。
关键设计:核心在于RE-Reward模型的设计,它通过多模态输入捕捉图像编辑的细微差异;训练阶段采用GRPO(Group Relative Policy Optimization)算法,通过组内相对奖励信号优化策略,有效提升了模型在复杂推理任务中的稳定性与对齐效果。
🖼️ 关键图片
📊 实验亮点
实验结果显示,ReasonEdit在人类偏好对齐方面显著优于现有基准模型。在多个公开数据集上的泛化测试中,该模型不仅能提供高准确率的标量评分,还能生成逻辑严密、符合人类审美的解释文本,在评估的一致性与可解释性指标上均达到SOTA水平,有效解决了传统评估方法在复杂编辑场景下的失效问题。
🎯 应用场景
该研究可广泛应用于图像生成与编辑模型的自动化评测流水线,特别是在需要高精度、可解释性反馈的工业级内容生产场景中。它能帮助开发者快速定位模型缺陷,优化提示词工程,并为AI生成内容的合规性审查与质量控制提供透明、可信的评估工具,推动生成式AI在设计、广告及艺术创作领域的落地。
📄 摘要(原文)
Recent text-guided image editing (TIE) models have achieved remarkable progress, however, many edited results still suffer from artifacts, unintended modifications, and suboptimal aesthetics. Although several benchmarks and evaluation methods have been proposed, most existing approaches rely on scalar scores and lack interpretability. This limitation largely stems from the absence of high-quality interpretation datasets for TIE and effective reward models to train interpretable evaluators. To address these challenges, we introduce ReasonEdit-22K, the first dataset that combines 22K edited images with 113K Chain-of-Thought (CoT) samples, along with 1.3M human judgments assessing these interpretations in terms of logicality, accuracy, and usefulness. Building upon this dataset, we propose RE-Reward, a multimodal large language model (MLLM)-based reward model designed to provide human-aligned feedback for evaluating interpretable reasoning in image editing. Furthermore, we develop ReasonEdit, which is trained using reward signals derived from RE-Reward and the Group Relative Policy Optimization (GRPO) algorithm to learn an interpretable evaluation model. Extensive experiments demonstrate that ReasonEdit achieves superior alignment with human preferences and exhibits strong generalization across public benchmarks. In addition, it is capable of generating high-quality interpretable evaluation text, enabling more transparent and trustworthy assessment for image editing. The code is available at https://github.com/IntMeGroup/ReasonEdit.