GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

📄 arXiv: 2603.12264v1 📥 PDF

作者: Mingxin Liu, Ziqian Fan, Zhaokai Wang, Leyao Gu, Zirun Zhu, Yiguo He, Yuchen Yang, Changyao Tian, Xiangyu Zhao, Ning Liao, Shaofeng Zhang, Qibing Ren, Zhihang Zhong, Xuanhe Zhou, Junchi Yan, Xue Yang

分类: cs.CV

发布日期: 2026-03-12

备注: 49 pages, 23 figures, 10 tables; Project Page: https://grade-bench.github.io/, Code: https://github.com/VisionXLab/GRADE, Dataset: https://huggingface.co/datasets/VisionXLab/GRADE


💡 一句话要点

GRADE:提出首个学科知识驱动的图像编辑基准,评估多模态模型的推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 多模态学习 学科知识 基准测试 知识推理

📋 核心要点

  1. 现有图像编辑基准缺乏对模型在特定学科知识约束下推理能力的有效评估。
  2. GRADE基准通过构建包含多个学科领域知识的图像编辑任务,来评估模型在知识驱动下的推理能力。
  3. 实验结果表明,现有模型在处理学科知识驱动的图像编辑任务时存在显著的性能差距。

📝 摘要(中文)

统一多模态模型旨在实现联合理解、推理和生成,但当前的图像编辑基准主要局限于自然图像和浅层常识推理,对结构化、领域特定约束下的能力评估有限。本文提出了GRADE,这是首个评估图像编辑中学科知识和推理的基准。GRADE包含520个精心策划的样本,涵盖从自然科学到社会科学的10个学术领域。为了支持严格的评估,我们提出了一种多维评估协议,该协议共同评估学科推理、视觉一致性和逻辑可读性。对20个最先进的开源和闭源模型进行的大量实验表明,当前模型在隐式、知识密集型编辑设置下存在重大局限性,导致巨大的性能差距。除了定量分数外,我们还进行了严格的分析和消融研究,以揭示模型的缺点并识别学科编辑中的约束。总之,GRADE指出了统一多模态模型未来发展的关键方向,从而推进了学科知识驱动的图像编辑和推理的研究。我们的基准和评估代码已公开发布。

🔬 方法详解

问题定义:现有图像编辑基准主要集中于自然图像和常识推理,缺乏对模型在特定学科知识约束下进行推理和编辑能力的评估。这使得我们难以衡量多模态模型在更复杂、知识密集型场景下的表现。现有方法无法有效处理需要特定领域知识才能完成的图像编辑任务,例如根据物理定律修改图像。

核心思路:GRADE的核心思路是构建一个包含多个学科领域知识的图像编辑基准,通过评估模型在这些任务上的表现,来衡量其学科知识推理能力。该基准的设计侧重于考察模型是否能够理解和应用特定领域的知识来完成图像编辑任务,而不仅仅是依赖于视觉信息。

技术框架:GRADE基准包含520个样本,涵盖10个学术领域,从自然科学到社会科学。每个样本都包含一个原始图像和一个目标图像,以及相应的编辑指令。为了评估模型的性能,论文提出了一个多维评估协议,包括学科推理、视觉一致性和逻辑可读性三个方面。学科推理评估模型是否正确应用了学科知识进行编辑;视觉一致性评估编辑后的图像是否与原始图像保持视觉上的一致性;逻辑可读性评估编辑后的图像是否符合逻辑和常识。

关键创新:GRADE的关键创新在于它是首个针对学科知识驱动的图像编辑的基准。它不仅提供了高质量的数据集,还提出了一个全面的评估协议,可以有效地评估模型在知识密集型图像编辑任务上的表现。此外,GRADE还通过实验分析揭示了现有模型在处理此类任务时的局限性,为未来的研究方向提供了指导。

关键设计:GRADE基准的数据集构建过程经过精心设计,确保每个样本都具有明确的学科知识背景和合理的编辑指令。评估协议中的三个指标(学科推理、视觉一致性和逻辑可读性)相互补充,共同评估模型的性能。论文还进行了大量的消融实验,以分析不同因素对模型性能的影响。

📊 实验亮点

在GRADE基准上,对20个最先进的开源和闭源模型进行了广泛的实验。实验结果表明,现有模型在学科知识驱动的图像编辑任务上表现不佳,与人类水平存在显著差距。例如,在需要应用物理定律进行编辑的任务上,模型的性能远低于预期。这些结果突显了现有模型在知识推理方面的局限性,并为未来的研究提供了明确的方向。

🎯 应用场景

GRADE基准的提出,有助于推动多模态模型在更广泛的知识密集型场景中的应用,例如教育、科研等领域。通过提升模型在学科知识驱动下的图像编辑能力,可以开发出更智能、更实用的图像编辑工具,辅助人们进行学习、研究和创作。

📄 摘要(原文)

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.