DiffCap-Bench: A Comprehensive, Challenging, Robust Benchmark for Image Difference Captioning

📄 arXiv: 2605.04503v1 📥 PDF

作者: Yuancheng Wei, Haojie Zhang, Linli Yao, Lei Li, Jiali Chen, Tao Huang, Yiting Lu, Duojun Huang, Xin Li, Zhao Zhong

分类: cs.CV, cs.AI

发布日期: 2026-05-06


💡 一句话要点

提出DiffCap-Bench,用于全面、鲁棒地评估图像差异描述任务中的多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像差异描述 多模态大语言模型 基准测试 LLM评估 视觉推理

📋 核心要点

  1. 现有图像差异描述基准缺乏多样性和组合复杂性,评估指标无法准确衡量语义一致性和避免幻觉。
  2. DiffCap-Bench通过覆盖十个差异类别,并结合基于LLM的评估协议和人工验证的差异列表,实现更全面的评估。
  3. 实验表明,DiffCap-Bench能有效区分不同MLLM的性能,并与人类判断及下游图像编辑任务质量高度相关。

📝 摘要(中文)

图像差异描述(IDC)生成自然语言描述,精确识别两幅图像之间的差异,是细粒度变化感知、跨模态推理和图像编辑数据构建的关键基准。然而,现有基准缺乏多样性和组合复杂性,且标准词汇重叠指标(如BLEU、METEOR)无法捕捉语义一致性或惩罚幻觉,这阻碍了对多模态大语言模型(MLLM)在IDC上的全面和鲁棒评估。为了解决这些差距,我们引入了DiffCap-Bench,这是一个全面的IDC基准,涵盖十个不同的差异类别,以确保多样性和组合复杂性。此外,我们提出了一种基于LLM作为评判者的评估协议,该协议基于人工验证的差异列表,从而能够对模型捕获和描述视觉变化的能力进行鲁棒评估。通过对最先进的MLLM进行广泛评估,我们揭示了专有模型和开源模型之间存在的显著性能差距,强调了推理能力的关键重要性,并明确了模型扩展的局限性。我们的框架还展示了与人类专家判断的高度一致性,以及与下游图像编辑数据构建质量的强相关性。这些发现确立了DiffCap-Bench作为可靠的IDC评估框架和下游实用性的实际预测指标。该基准和代码将公开发布,以支持进一步的研究。

🔬 方法详解

问题定义:论文旨在解决现有图像差异描述(IDC)基准的不足,具体表现为:缺乏多样性,难以覆盖各种图像差异类型;组合复杂性不足,无法有效评估模型的推理能力;评估指标不合理,传统的词汇重叠指标无法准确衡量语义一致性,且容易受到幻觉的影响。这些问题导致现有基准无法全面、鲁棒地评估MLLM在IDC任务上的性能。

核心思路:论文的核心思路是构建一个更具挑战性和代表性的IDC基准,并设计一种更可靠的评估方法。通过增加差异类别的数量和组合复杂性,提高基准的多样性。利用LLM作为评判者,结合人工验证的差异列表,实现对模型生成描述的语义一致性和准确性的更有效评估。

技术框架:DiffCap-Bench的整体框架包含两个主要部分:数据集构建和评估协议。数据集构建方面,收集并标注了包含十个不同差异类别的大量图像对,并确保每个类别都具有一定的组合复杂性。评估协议方面,使用LLM作为评判者,根据人工验证的差异列表,对模型生成的描述进行评分。该协议旨在衡量模型捕获和描述视觉变化的能力,并避免传统指标的局限性。

关键创新:论文的关键创新在于:1) 构建了一个更全面、更具挑战性的IDC基准,涵盖了更多样化的差异类别和更复杂的组合关系。2) 提出了一种基于LLM的评估协议,该协议能够更准确地衡量模型生成描述的语义一致性和准确性,并有效避免了传统指标的局限性。

关键设计:在数据集构建方面,论文精心设计了十个差异类别,并对每个类别的数据量和组合复杂性进行了控制。在评估协议方面,论文使用了GPT-4作为LLM评判者,并设计了详细的提示语,以指导LLM进行评分。此外,论文还采用了人工验证的差异列表,以确保评估结果的准确性和可靠性。具体的参数设置和网络结构未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiffCap-Bench能够有效区分不同MLLM的性能,揭示了专有模型和开源模型之间的显著差距。该基准与人类专家判断高度一致,并与下游图像编辑数据构建质量具有强相关性。例如,在特定差异类别上,专有模型的性能明显优于开源模型,表明推理能力的重要性。

🎯 应用场景

DiffCap-Bench可应用于多模态大语言模型的评估与改进,推动图像编辑、视觉问答等领域的发展。该基准能够帮助研究人员更准确地评估模型的图像差异理解和描述能力,从而开发出更智能、更可靠的AI系统。此外,DiffCap-Bench还可用于指导图像编辑数据的构建,提高数据质量,促进相关应用落地。

📄 摘要(原文)

Image Difference Captioning (IDC) generates natural language descriptions that precisely identify differences between two images, serving as a key benchmark for fine-grained change perception, cross-modal reasoning, and image editing data construction. However, existing benchmarks lack diversity and compositional complexity, and standard lexical-overlap metrics (e.g., BLEU, METEOR) fail to capture semantic consistency or penalize hallucinations, which together prevent a comprehensive and robust evaluation of multimodal large language models (MLLMs) on IDC. To address these gaps, we introduce DiffCap-Bench, a comprehensive IDC benchmark covering ten distinct difference categories to ensure diversity and compositional complexity. Furthermore, we propose an LLM-as-a-Judge evaluation protocol grounded in human-validated Difference Lists, enabling a robust assessment of models' ability to both capture and describe visual changes. Through extensive evaluation of state-of-the-art MLLMs, we reveal significant performance gaps between proprietary and open-source models, highlight the critical importance of reasoning capability, and identify clear limitations in model scaling. Our framework also demonstrates strong alignment with human expert judgments and strong correlation with downstream image editing data construction quality. These findings establish DiffCap-Bench as both a reliable IDC evaluation framework and a practical predictor of downstream utility. The benchmark and code will be made publicly available to support further research.