DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
作者: Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao
分类: cs.CV, cs.AI
发布日期: 2026-02-27
💡 一句话要点
提出DLEBench,用于评估指令驱动图像编辑模型在小目标编辑上的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令驱动图像编辑 小目标编辑 基准测试 图像处理 视觉一致性
📋 核心要点
- 现有指令驱动图像编辑模型在小目标编辑能力上存在不足,缺乏专门的评估基准。
- 提出DLEBench基准,包含复杂场景的小目标编辑样本,并设计了双模式评估框架。
- 实验结果表明,现有模型在DLEBench上表现出显著的性能差距,验证了基准的有效性。
📝 摘要(中文)
指令驱动图像编辑模型(IIEMs)领域取得了显著进展。然而,尽管这些模型在现有基准测试中表现出对指令的合理遵循和强大的推理能力,但它们编辑小目标的能力仍未得到充分探索。本文介绍了DeepLookEditBench(DLEBench),这是第一个专门用于评估IIEMs编辑小规模对象能力的基准。具体来说,我们构建了一个具有挑战性的测试平台,包含七种指令类型的1889个样本。在这些样本中,目标对象仅占图像面积的1%-10%,涵盖了诸如部分遮挡和多对象编辑等复杂场景。为了确保对该基准进行稳健的评估,我们提出了一种评估协议,其中包含改进的评分标准,以最大限度地减少两个标准中的主观性和歧义:指令遵循和视觉一致性。该协议还引入了一种双模式评估框架(工具驱动模式和Oracle引导模式),解决了LMM-as-a-Judge与人类判断在DLEBench上的不一致。对10个IIEMs的实证结果表明,在小规模对象编辑方面存在显著的性能差距,突出了需要专门的基准来提高这种能力。
🔬 方法详解
问题定义:现有指令驱动图像编辑模型在处理图像中小尺寸目标的编辑任务时表现不佳,缺乏针对小目标编辑能力的系统性评估。现有基准测试无法充分反映模型在精细化局部编辑和细节处理方面的能力,阻碍了相关技术的发展。
核心思路:构建一个专门针对小目标编辑的基准测试集DLEBench,并设计一套客观、全面的评估方案。通过该基准,可以更准确地衡量模型在小目标编辑方面的性能,从而推动模型在该方向上的改进。
技术框架:DLEBench包含一个包含1889个样本的测试集,涵盖七种指令类型,目标对象仅占图像面积的1%-10%。评估协议包含指令遵循和视觉一致性两个标准,并采用双模式评估框架(工具驱动模式和Oracle引导模式)。工具驱动模式模拟实际应用场景,Oracle引导模式提供理想的编辑结果作为参考。
关键创新:DLEBench是第一个专门针对指令驱动图像编辑模型在小目标编辑能力上的评估基准。双模式评估框架解决了大型语言模型作为评估者(LMM-as-a-Judge)与人类判断之间的不一致性,提高了评估的准确性和可靠性。
关键设计:测试集中的样本涵盖了部分遮挡和多对象编辑等复杂场景,增加了评估的难度和挑战性。评估协议中,指令遵循和视觉一致性两个标准采用精细化的评分标准,减少了主观性和歧义。双模式评估框架中,工具驱动模式和Oracle引导模式相互补充,提供了更全面的评估结果。具体参数设置、损失函数和网络结构等技术细节在论文中未明确说明,属于未知信息。
📊 实验亮点
在DLEBench基准测试中,对10个指令驱动图像编辑模型进行了评估,结果表明这些模型在小目标编辑方面存在显著的性能差距。具体而言,现有模型在指令遵循和视觉一致性方面均表现不佳,表明需要专门针对小目标编辑进行优化。DLEBench的提出为该领域的研究提供了重要的评估工具。
🎯 应用场景
该研究成果可应用于图像编辑、图像生成、增强现实等领域。通过提高模型在小目标编辑方面的能力,可以实现更精细化的图像处理,例如修复照片中的瑕疵、修改生成图像的细节等。未来,该技术有望应用于专业图像编辑软件和移动应用中,提升用户体验。
📄 摘要(原文)
Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.