CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

📄 arXiv: 2603.26174v1 📥 PDF

作者: Chonghuinan Wang, Zihan Chen, Yuxiang Wei, Tianyi Jiang, Xiaohe Wu, Fan Li, Wangmeng Zuo, Hongxun Yao

分类: cs.CV

发布日期: 2026-03-27

备注: Accepted by CVPR2026


💡 一句话要点

提出CREval:用于复杂指令下创意图像编辑的自动化可解释评估框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑评估 多模态学习 视觉问答 自动化评估 创意图像操作

📋 核心要点

  1. 现有图像编辑评估方法缺乏系统性和与人类对齐的框架,难以评估模型在复杂创意编辑任务上的表现。
  2. CREval通过全自动的问答流程,克服了传统MLLM评分的不透明性和不完整性,实现了可解释的评估。
  3. CREval-Bench基准和实验结果揭示了现有模型在复杂创意编辑任务上的不足,并为未来研究指明方向。

📝 摘要(中文)

本文提出CREval,一个全自动的基于问答(QA)的评估流程,旨在克服不透明的多模态大型语言模型(MLLM)评分的不完整性和较差的可解释性,从而系统地评估模型在复杂和创意编辑任务上的性能。同时,引入了CREval-Bench,一个专门为复杂指令下的创意图像操作设计的综合基准。CREval-Bench涵盖三个类别和九个创意维度,包含超过800个编辑样本和13K个评估查询。利用该流程和基准,系统地评估了一系列最先进的开源和闭源模型。结果表明,虽然闭源模型在复杂和创意任务上通常优于开源模型,但所有模型仍然难以有效地完成此类编辑。此外,用户研究表明CREval的自动化指标与人类判断之间具有很强的一致性。因此,CREval为评估图像编辑模型在复杂和创意图像操作任务上的性能提供了一个可靠的基础,并突出了未来研究的关键挑战和机遇。

🔬 方法详解

问题定义:现有基于指令的多模态图像编辑快速发展,但缺乏针对复杂和创意编辑任务的系统性评估方法。现有的评估方法,特别是依赖多模态大型语言模型(MLLM)的评分方式,存在不完整性和可解释性差的问题,难以准确反映模型的真实编辑能力。因此,需要一种自动化、可解释且与人类判断一致的评估框架。

核心思路:CREval的核心思路是利用问答(QA)系统,针对编辑后的图像提出一系列问题,通过模型回答问题的准确性来评估编辑效果。这种方法将评估过程分解为多个可解释的步骤,避免了直接使用MLLM进行黑盒评分,从而提高了评估结果的可信度和可解释性。同时,构建专门的基准数据集CREval-Bench,覆盖多种创意编辑维度,为全面评估模型提供数据支撑。

技术框架:CREval的整体框架包含两个主要部分:评估流程和基准数据集。评估流程首先根据给定的指令和原始图像生成编辑后的图像,然后针对编辑后的图像生成一系列问题,这些问题旨在测试图像编辑是否符合指令的要求。接下来,使用视觉问答(VQA)模型回答这些问题,并根据答案的准确性计算评估指标。基准数据集CREval-Bench包含多个类别的图像编辑任务,每个任务都包含原始图像、编辑指令、编辑后的图像以及相应的评估问题。

关键创新:CREval的关键创新在于其全自动化的问答式评估流程。与传统的依赖人工评估或黑盒MLLM评分的方法不同,CREval通过设计一系列针对特定编辑指令的问题,并利用VQA模型自动回答这些问题,从而实现了可解释且高效的评估。这种方法不仅提高了评估的客观性和可重复性,还能够深入分析模型的编辑能力,发现其潜在的缺陷。

关键设计:CREval的关键设计包括:1) 问题生成策略:根据不同的编辑指令,设计不同的问题模板,确保问题能够准确地反映编辑效果。2) VQA模型选择:选择具有较高准确率和鲁棒性的VQA模型,以保证评估结果的可靠性。3) 评估指标设计:设计多种评估指标,包括准确率、召回率和F1值等,以全面评估模型的编辑能力。4) CREval-Bench数据集构建:精心设计数据集的类别和维度,确保数据集能够覆盖各种复杂的创意编辑任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,闭源模型在复杂创意编辑任务上通常优于开源模型,但所有模型都难以有效地完成此类编辑。CREval的自动化指标与人类判断之间具有很强的一致性,验证了CREval的可靠性。CREval-Bench基准数据集为未来的研究提供了有价值的资源。

🎯 应用场景

CREval可应用于图像编辑模型的开发、测试和比较。它可以帮助研究人员快速评估模型的性能,发现模型的不足,并指导模型的设计和优化。此外,CREval还可以用于评估图像编辑工具的可用性和用户体验,为用户选择合适的工具提供参考。该研究的未来影响在于推动图像编辑技术的进步,并促进其在艺术创作、内容生成等领域的应用。

📄 摘要(原文)

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.