Redefining Quality Criteria and Distance-Aware Score Modeling for Image Editing Assessment

作者: Xinjie Zhang, Qiang Li, Xiaowen Ma, Axi Niu, Li Yan, Qingsen Yan

分类: cs.CV

发布日期: 2026-04-14

💡 一句话要点

提出DS-IEQA框架，解决图像编辑质量评估中度量标准僵化和距离无关评分建模问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑质量评估 多模态大语言模型 度量标准提示优化 距离回归损失 AIGC 质量评估 反馈驱动 Token解耦

📋 核心要点

现有基于MLLM的图像编辑质量评估方法依赖人工启发式提示，存在度量标准僵化和距离无关评分建模的问题。
DS-IEQA框架联合学习评估标准和评分表示，通过反馈驱动的度量标准提示优化和Token解耦距离回归损失来解决上述问题。
实验结果表明，DS-IEQA在图像编辑质量评估任务上表现优异，无需额外训练数据即可取得领先水平。

📝 摘要（中文）

图像编辑技术的进步对图像编辑质量评估(IEQA)提出了更高的要求。与传统方法不同，IEQA需要对多模态输入进行复杂的推理和多维度的评估。现有的基于MLLM的方法通常依赖于人工启发式提示，导致了两个关键限制：僵化的度量标准提示和距离无关的评分建模。这些问题阻碍了与人类隐式标准的对齐，并且无法捕捉评分空间的连续结构。为了解决这个问题，我们提出了Define-and-Score图像编辑质量评估(DS-IEQA)，一个联合学习评估标准和评分表示的统一框架。具体来说，我们引入了反馈驱动的度量标准提示优化(FDMPO)，通过概率反馈自动优化度量标准定义。此外，我们提出了Token-Decoupled Distance Regression Loss (TDRL)，它将数值token与语言建模解耦，通过期望距离最小化来显式地建模评分连续性。大量的实验表明了我们方法的优越性能；在2026 NTIRE X-AIGC质量评估Track 2中，我们的方法在没有任何额外训练数据的情况下排名第四。

🔬 方法详解

问题定义：现有的图像编辑质量评估方法，特别是基于多模态大语言模型（MLLM）的方法，依赖于人工设计的启发式提示来指导模型进行评估。这种方式存在两个主要问题：一是度量标准的定义是固定的，无法根据实际情况进行调整；二是评分建模是距离无关的，忽略了评分之间存在的连续性关系，导致模型无法准确捕捉评分空间的结构。

核心思路：DS-IEQA的核心思路是联合学习评估标准和评分表示。通过自动优化度量标准定义，使模型能够更好地对齐人类的隐式评估标准。同时，通过显式地建模评分之间的距离关系，使模型能够更好地捕捉评分空间的连续结构，从而提高评估的准确性。

技术框架：DS-IEQA框架包含两个主要模块：反馈驱动的度量标准提示优化（FDMPO）和Token解耦距离回归损失（TDRL）。FDMPO模块通过概率反馈自动优化度量标准定义，TDRL模块将数值token与语言建模解耦，通过期望距离最小化来显式地建模评分连续性。整个框架通过联合训练的方式，同时优化评估标准和评分表示。

关键创新：该论文的关键创新在于提出了FDMPO和TDRL两个模块。FDMPO模块能够自动优化度量标准定义，避免了人工设计的局限性。TDRL模块能够显式地建模评分之间的距离关系，克服了传统方法中距离无关评分建模的问题。这两个模块的结合，使得DS-IEQA框架能够更准确地评估图像编辑质量。

关键设计：FDMPO模块使用概率反馈来指导度量标准提示的优化。具体来说，模型会根据当前的度量标准提示生成一个评分，然后根据这个评分与真实评分之间的差异，调整度量标准提示。TDRL模块将数值token与语言建模解耦，使用期望距离最小化来建模评分连续性。具体来说，模型会预测一个评分分布，然后通过最小化预测分布的期望距离与真实评分之间的差异，来优化模型。

🖼️ 关键图片

📊 实验亮点

DS-IEQA在2026 NTIRE X-AIGC质量评估Track 2中排名第四，且未使用任何额外的训练数据。这表明该方法在图像编辑质量评估任务上具有很强的竞争力，并且具有良好的泛化能力。实验结果验证了FDMPO和TDRL模块的有效性。

🎯 应用场景

该研究成果可应用于图像编辑软件、图像质量评估系统、以及AIGC内容审核等领域。通过更准确地评估图像编辑质量，可以帮助用户选择更合适的编辑方案，提高图像编辑的效率和质量，并为AIGC内容的质量控制提供技术支持。

📄 摘要（原文）

Recent advances in image editing have heightened the need for reliable Image Editing Quality Assessment (IEQA). Unlike traditional methods, IEQA requires complex reasoning over multimodal inputs and multi-dimensional assessments. Existing MLLM-based approaches often rely on human heuristic prompting, leading to two key limitations: rigid metric prompting and distance-agnostic score modeling. These issues hinder alignment with implicit human criteria and fail to capture the continuous structure of score spaces. To address this, we propose Define-and-Score Image Editing Quality Assessment (DS-IEQA), a unified framework that jointly learns evaluation criteria and score representations. Specifically, we introduce Feedback-Driven Metric Prompt Optimization (FDMPO) to automatically refine metric definitions via probabilistic feedback. Furthermore, we propose Token-Decoupled Distance Regression Loss (TDRL), which decouples numerical tokens from language modeling to explicitly model score continuity through expected distance minimization. Extensive experiments show our method's superior performance; it ranks 4th in the 2026 NTIRE X-AIGC Quality Assessment Track 2 without any additional training data.

Redefining Quality Criteria and Distance-Aware Score Modeling for Image Editing Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理