What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models

作者: Lorenzo Baraldi, Davide Bucciarelli, Federico Betti, Marcella Cornia, Lorenzo Baraldi, Nicu Sebe, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-05-26

💡 一句话要点

提出DICE，利用多模态大语言模型评估指令引导的图像编辑效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑评估 多模态大语言模型 指令引导 差异检测 一致性估计 自监督学习 知识蒸馏

📋 核心要点

现有图像编辑评估指标与人类判断一致性差，缺乏可解释性，难以有效评估指令引导的图像编辑模型。
DICE利用多模态大语言模型，通过差异检测和一致性估计，判断编辑区域与指令的相关性，实现更准确的评估。
实验表明，DICE能有效识别一致性编辑，评估结果与人类判断高度相关，优于现有评估方法。

📝 摘要（中文）

基于指令的图像编辑模型在生成任务中提供了更高的个性化机会。然而，正确评估其结果具有挑战性，并且现有的大多数指标在与人类判断和可解释性方面存在不足。为了解决这些问题，我们引入了DICE（Difference Coherence Estimator），该模型旨在检测原始图像和编辑图像之间的局部差异，并评估它们与给定修改请求的相关性。DICE由两个关键组件组成：差异检测器和一致性估计器，两者都建立在自回归多模态大语言模型（MLLM）之上，并使用一种利用自监督、来自图像修复网络的知识蒸馏和完全监督的策略进行训练。通过广泛的实验，我们评估了我们pipeline的每个阶段，比较了所提出框架内的不同MLLM。我们证明DICE有效地识别了一致的编辑，有效地评估了由不同编辑模型生成的图像，并与人类判断具有很强的相关性。我们公开发布我们的源代码、模型和数据。

🔬 方法详解

问题定义：现有指令引导的图像编辑模型缺乏有效的评估方法。现有的图像质量评估指标无法准确衡量编辑结果与指令的相关性，与人类感知存在较大差距，且缺乏可解释性，难以指导模型优化。因此，如何设计一种能够准确评估指令引导图像编辑效果的指标是本文要解决的核心问题。

核心思路：本文的核心思路是利用多模态大语言模型（MLLM）理解图像内容和指令信息，通过检测原始图像和编辑图像之间的差异，并评估这些差异与指令的一致性来判断编辑效果。这种方法模拟了人类的评估过程，能够更好地捕捉编辑的语义信息，从而提高评估的准确性和可解释性。

技术框架：DICE包含两个主要模块：差异检测器和一致性估计器。首先，差异检测器负责识别原始图像和编辑图像之间的局部差异。然后，一致性估计器利用MLLM评估这些差异与给定指令的相关性。整个流程包括：1) 输入原始图像、编辑图像和指令；2) 差异检测器定位编辑区域；3) 一致性估计器判断编辑区域与指令是否一致；4) 输出评估分数。

关键创新：DICE的关键创新在于将多模态大语言模型应用于指令引导的图像编辑评估任务。与传统的图像质量评估指标相比，DICE能够更好地理解图像内容和指令信息，从而更准确地评估编辑效果。此外，DICE采用了一种结合自监督、知识蒸馏和完全监督的训练策略，有效地提高了模型的性能。

关键设计：DICE的训练策略包括三个阶段：1) 自监督：利用图像修复任务预训练MLLM，使其具备基本的图像理解能力；2) 知识蒸馏：从图像修复网络中学习编辑区域的先验知识，提高差异检测的准确性；3) 完全监督：使用人工标注的数据微调模型，使其能够更好地评估编辑效果。损失函数包括交叉熵损失和回归损失，用于优化差异检测和一致性估计的性能。具体使用的MLLM架构需要在实验中进行选择和调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DICE在评估指令引导的图像编辑效果方面表现出色，与人类判断具有很强的相关性。通过对比不同的MLLM，验证了DICE框架的有效性。DICE在多个数据集上取得了显著的性能提升，证明了其在实际应用中的潜力。

🎯 应用场景

DICE可应用于评估和改进指令引导的图像编辑模型，帮助开发者选择更有效的模型和优化算法。此外，DICE还可用于图像生成领域的质量控制，确保生成图像符合用户需求。该研究对提升图像编辑技术的用户体验和推动相关领域发展具有重要意义。

📄 摘要（原文）

Instruction-based image editing models offer increased personalization opportunities in generative tasks. However, properly evaluating their results is challenging, and most of the existing metrics lag in terms of alignment with human judgment and explainability. To tackle these issues, we introduce DICE (DIfference Coherence Estimator), a model designed to detect localized differences between the original and the edited image and to assess their relevance to the given modification request. DICE consists of two key components: a difference detector and a coherence estimator, both built on an autoregressive Multimodal Large Language Model (MLLM) and trained using a strategy that leverages self-supervision, distillation from inpainting networks, and full supervision. Through extensive experiments, we evaluate each stage of our pipeline, comparing different MLLMs within the proposed framework. We demonstrate that DICE effectively identifies coherent edits, effectively evaluating images generated by different editing models with a strong correlation with human judgment. We publicly release our source code, models, and data.

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理