Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

📄 arXiv: 2605.13062v1 📥 PDF

作者: Xuehai Bai, Yang Shi, Yi-Fan Zhang, Xuanyu Zhu, Yuran Wang, Yifan Dai, Xinyu Liu, Yiyan Ji, Xiaoling Gu, Yuanxing Zhang

分类: cs.CV

发布日期: 2026-05-13


💡 一句话要点

提出Edit-Compass与EditReward-Compass,统一评估图像编辑模型与奖励模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 奖励模型 评估基准 强化学习 视觉推理 多模态理解 指令跟随

📋 核心要点

  1. 现有图像编辑基准难以反映人类判断,且奖励模型基准脱离实际强化学习场景。
  2. 提出Edit-Compass和EditReward-Compass,分别用于图像编辑模型和奖励模型的评估。
  3. Edit-Compass包含多任务和细粒度评估,EditReward-Compass模拟真实强化学习场景。

📝 摘要(中文)

本文提出了Edit-Compass和EditReward-Compass,一个统一的评估套件,用于图像编辑和奖励建模。现有的图像编辑模型在指令跟随、多模态理解和复杂视觉编辑方面取得了显著进展,但现有基准通常难以真实反映人类判断,特别是对于强大的前沿模型,这是由于任务难度有限和粗粒度的评估协议。同时,奖励模型在基于强化学习的图像编辑优化中变得越来越重要,但现有的奖励模型基准仍然依赖于不切实际的评估设置,这些设置偏离了实际的强化学习场景。为了应对这些挑战,Edit-Compass包含2388个精心标注的实例,涵盖六个渐进式挑战性任务类别,包括世界知识推理、视觉推理和多图像编辑等能力。除了广泛的任务覆盖范围外,Edit-Compass还采用了基于结构化推理和精心设计的评分标准的细粒度多维评估框架。同时,EditReward-Compass包含2251个偏好对,模拟了强化学习优化期间的真实奖励建模场景。

🔬 方法详解

问题定义:现有图像编辑模型的评估基准存在任务难度不足、评估指标粗糙的问题,难以有效区分优秀模型。同时,奖励模型评估基准的设置与实际强化学习优化场景存在偏差,导致评估结果的参考价值降低。

核心思路:为了解决上述问题,论文构建了Edit-Compass和EditReward-Compass两个基准。Edit-Compass通过设计更具挑战性的任务和更细粒度的评估指标,提高图像编辑模型评估的准确性。EditReward-Compass则通过模拟真实的强化学习场景,提高奖励模型评估的实用性。

技术框架:Edit-Compass包含六个任务类别,涵盖世界知识推理、视觉推理和多图像编辑等能力。每个任务都包含多个实例,并采用多维评估框架,从不同角度评估模型的性能。EditReward-Compass包含多个偏好对,用于训练和评估奖励模型。这些偏好对模拟了强化学习优化过程中可能遇到的各种情况。

关键创新:该论文的关键创新在于构建了更具挑战性和实用性的图像编辑和奖励模型评估基准。Edit-Compass通过引入更复杂的任务和更细粒度的评估指标,提高了评估的准确性。EditReward-Compass通过模拟真实的强化学习场景,提高了评估的实用性。

关键设计:Edit-Compass的关键设计包括:1) 六个渐进式挑战性任务类别;2) 基于结构化推理和精心设计的评分标准的细粒度多维评估框架。EditReward-Compass的关键设计在于构建了模拟真实强化学习场景的偏好对数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Edit-Compass包含2388个实例,覆盖六个任务类别,采用细粒度多维评估框架。EditReward-Compass包含2251个偏好对,模拟真实强化学习场景。这些数据集和评估方法为图像编辑和奖励模型的研究提供了有力的支持。

🎯 应用场景

该研究成果可应用于图像编辑模型的性能评估与优化,以及奖励模型在强化学习图像编辑中的应用。通过使用Edit-Compass和EditReward-Compass,研究人员可以更准确地评估模型的性能,并指导模型的改进方向,从而推动图像编辑技术的发展。

📄 摘要(原文)

Recent image editing models have achieved remarkable progress in instruction following, multimodal understanding, and complex visual editing. However, existing benchmarks often fail to faithfully reflect human judgment, especially for strong frontier models, due to limited task difficulty and coarse-grained evaluation protocols. In parallel, reward models have become increasingly important for RL-based image editing optimization, yet existing reward model benchmarks still rely on unrealistic evaluation settings that deviate from practical RL scenarios. These limitations hinder reliable assessment of both image editing models and reward models. To address these challenges, we introduce Edit-Compass and EditReward-Compass, a unified evaluation suite for image editing and reward modeling. Edit-Compass contains 2,388 carefully annotated instances spanning six progressively challenging task categories, covering capabilities such as world knowledge reasoning, visual reasoning, and multi-image editing. Beyond broad task coverage, Edit-Compass adopts a fine-grained multidimensional evaluation framework based on structured reasoning and carefully designed scoring rubrics. In parallel, EditReward-Compass contains 2,251 preference pairs that simulate realistic reward modeling scenarios during RL optimization.