Redefining Quality Criteria and Distance-Aware Score Modeling for Image Editing Assessment

📄 arXiv: 2604.12175v1 📥 PDF

作者: Xinjie Zhang, Qiang Li, Xiaowen Ma, Axi Niu, Li Yan, Qingsen Yan

分类: cs.CV

发布日期: 2026-04-14


💡 一句话要点

提出DS-IEQA框架,解决图像编辑质量评估中度量标准僵化和距离无关评分建模问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑质量评估 多模态大语言模型 度量标准提示优化 距离回归损失 AIGC 质量评估 反馈驱动 Token解耦

📋 核心要点

  1. 现有基于MLLM的图像编辑质量评估方法依赖人工启发式提示,存在度量标准僵化和距离无关评分建模的问题。
  2. DS-IEQA框架联合学习评估标准和评分表示,通过反馈驱动的度量标准提示优化和Token解耦距离回归损失来解决上述问题。
  3. 实验结果表明,DS-IEQA在图像编辑质量评估任务上表现优异,无需额外训练数据即可取得领先水平。

📝 摘要(中文)

图像编辑技术的进步对图像编辑质量评估(IEQA)提出了更高的要求。与传统方法不同,IEQA需要对多模态输入进行复杂的推理和多维度的评估。现有的基于MLLM的方法通常依赖于人工启发式提示,导致了两个关键限制:僵化的度量标准提示和距离无关的评分建模。这些问题阻碍了与人类隐式标准的对齐,并且无法捕捉评分空间的连续结构。为了解决这个问题,我们提出了Define-and-Score图像编辑质量评估(DS-IEQA),一个联合学习评估标准和评分表示的统一框架。具体来说,我们引入了反馈驱动的度量标准提示优化(FDMPO),通过概率反馈自动优化度量标准定义。此外,我们提出了Token-Decoupled Distance Regression Loss (TDRL),它将数值token与语言建模解耦,通过期望距离最小化来显式地建模评分连续性。大量的实验表明了我们方法的优越性能;在2026 NTIRE X-AIGC质量评估Track 2中,我们的方法在没有任何额外训练数据的情况下排名第四。

🔬 方法详解

问题定义:现有的图像编辑质量评估方法,特别是基于多模态大语言模型(MLLM)的方法,依赖于人工设计的启发式提示来指导模型进行评估。这种方式存在两个主要问题:一是度量标准的定义是固定的,无法根据实际情况进行调整;二是评分建模是距离无关的,忽略了评分之间存在的连续性关系,导致模型无法准确捕捉评分空间的结构。

核心思路:DS-IEQA的核心思路是联合学习评估标准和评分表示。通过自动优化度量标准定义,使模型能够更好地对齐人类的隐式评估标准。同时,通过显式地建模评分之间的距离关系,使模型能够更好地捕捉评分空间的连续结构,从而提高评估的准确性。

技术框架:DS-IEQA框架包含两个主要模块:反馈驱动的度量标准提示优化(FDMPO)和Token解耦距离回归损失(TDRL)。FDMPO模块通过概率反馈自动优化度量标准定义,TDRL模块将数值token与语言建模解耦,通过期望距离最小化来显式地建模评分连续性。整个框架通过联合训练的方式,同时优化评估标准和评分表示。

关键创新:该论文的关键创新在于提出了FDMPO和TDRL两个模块。FDMPO模块能够自动优化度量标准定义,避免了人工设计的局限性。TDRL模块能够显式地建模评分之间的距离关系,克服了传统方法中距离无关评分建模的问题。这两个模块的结合,使得DS-IEQA框架能够更准确地评估图像编辑质量。

关键设计:FDMPO模块使用概率反馈来指导度量标准提示的优化。具体来说,模型会根据当前的度量标准提示生成一个评分,然后根据这个评分与真实评分之间的差异,调整度量标准提示。TDRL模块将数值token与语言建模解耦,使用期望距离最小化来建模评分连续性。具体来说,模型会预测一个评分分布,然后通过最小化预测分布的期望距离与真实评分之间的差异,来优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DS-IEQA在2026 NTIRE X-AIGC质量评估Track 2中排名第四,且未使用任何额外的训练数据。这表明该方法在图像编辑质量评估任务上具有很强的竞争力,并且具有良好的泛化能力。实验结果验证了FDMPO和TDRL模块的有效性。

🎯 应用场景

该研究成果可应用于图像编辑软件、图像质量评估系统、以及AIGC内容审核等领域。通过更准确地评估图像编辑质量,可以帮助用户选择更合适的编辑方案,提高图像编辑的效率和质量,并为AIGC内容的质量控制提供技术支持。

📄 摘要(原文)

Recent advances in image editing have heightened the need for reliable Image Editing Quality Assessment (IEQA). Unlike traditional methods, IEQA requires complex reasoning over multimodal inputs and multi-dimensional assessments. Existing MLLM-based approaches often rely on human heuristic prompting, leading to two key limitations: rigid metric prompting and distance-agnostic score modeling. These issues hinder alignment with implicit human criteria and fail to capture the continuous structure of score spaces. To address this, we propose Define-and-Score Image Editing Quality Assessment (DS-IEQA), a unified framework that jointly learns evaluation criteria and score representations. Specifically, we introduce Feedback-Driven Metric Prompt Optimization (FDMPO) to automatically refine metric definitions via probabilistic feedback. Furthermore, we propose Token-Decoupled Distance Regression Loss (TDRL), which decouples numerical tokens from language modeling to explicitly model score continuity through expected distance minimization. Extensive experiments show our method's superior performance; it ranks 4th in the 2026 NTIRE X-AIGC Quality Assessment Track 2 without any additional training data.