ITIScore: An Image-to-Text-to-Image Rating Framework for the Image Captioning Ability of MLLMs

📄 arXiv: 2604.03765 📥 PDF

作者: Zitong Xu, Huiyu Duan, Shengyao Qin, Guangyu Yao, Guangji Ma, Xiongkuo Min, Ke Gu, Guangtao Zhai, Patrick Le Callet

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出ITIScore:一个用于评估多模态大语言模型图像描述能力的图像-文本-图像评分框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述 多模态大语言模型 自动评估指标 图像重建 ICBench 一致性评估 零样本学习

📋 核心要点

  1. 现有图像描述基准在描述长度、模型覆盖和人工标注方面存在局限性,难以全面评估现代多模态大语言模型(MLLM)的性能。
  2. 论文提出ICBench基准和ITIScore自动评估指标,ICBench包含多样化的图像和描述,ITIScore通过图像重建一致性评估描述质量。
  3. 实验表明,ITIScore与人类判断高度一致,并在其他数据集上表现出良好的泛化能力,为MLLM图像描述能力评估提供有效工具。

📝 摘要(中文)

本文提出了一种新的大规模图像描述基准ICBench,旨在解决现有图像描述评估基准在描述长度多样性、最新模型覆盖以及人工标注充分性方面的不足。ICBench涵盖12个内容类别,包含由10个先进的多模态大语言模型在2K图像上生成的短和长两种类型的描述,总计40K个描述。我们进行了广泛的人工主观研究,获得了细粒度评估维度上的平均意见得分(MOS),其中短描述根据流畅性、相关性和简洁性进行评估,而长描述则基于流畅性、相关性和完整性进行评估。此外,我们提出了一种基于图像-文本-图像框架的自动评估指标ITIScore,通过重建一致性来衡量描述质量。实验结果表明,我们的自动指标与人类判断之间具有很强的一致性,并且在其他公共描述数据集上具有强大的零样本泛化能力。数据集和模型将在发表后发布。

🔬 方法详解

问题定义:现有图像描述评估基准存在三个主要痛点:一是描述长度单一,无法区分模型生成短描述和长描述的能力;二是缺乏对最新多模态大语言模型的覆盖,评估结果可能滞后;三是人工标注不足,可能引入偏差,影响评估的准确性。这些问题限制了对现代MLLM图像描述能力的全面评估。

核心思路:论文的核心思路是通过构建一个更全面、更细致的图像描述评估体系来解决现有基准的不足。具体来说,首先构建一个包含多样化图像和描述的ICBench基准,然后提出一个基于图像重建一致性的自动评估指标ITIScore。ITIScore的核心思想是,如果一个图像描述足够准确,那么通过这个描述重建出来的图像应该与原始图像高度相似。

技术框架:ITIScore的技术框架主要包含以下几个阶段:1) 图像描述生成:使用待评估的MLLM模型生成图像的描述文本。2) 图像重建:使用文本到图像生成模型(如Stable Diffusion)将生成的描述文本重建为图像。3) 一致性评估:计算重建图像与原始图像之间的相似度,作为描述质量的评估指标。相似度越高,表示描述越准确。

关键创新:ITIScore的关键创新在于其基于图像重建一致性的评估方法。与传统的基于文本相似度的评估指标(如BLEU、ROUGE)不同,ITIScore从图像的角度来衡量描述的质量,能够更全面地反映描述的准确性和完整性。此外,ITIScore无需人工标注,可以实现自动化的评估。

关键设计:ITIScore的关键设计包括:1) 图像重建模型选择:选择高质量的文本到图像生成模型,以保证重建图像的质量。2) 相似度度量方法:选择合适的图像相似度度量方法,如CLIP score或LPIPS,以准确衡量重建图像与原始图像之间的相似度。3) ICBench数据集构建:精心设计ICBench数据集,使其包含多样化的图像和描述,以保证评估的全面性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ITIScore与人类判断之间具有很强的一致性,Pearson相关系数达到0.8以上。此外,ITIScore在其他公共图像描述数据集上表现出良好的零样本泛化能力,证明了其鲁棒性和有效性。相比于传统的基于文本相似度的评估指标,ITIScore能够更准确地反映描述的质量。

🎯 应用场景

该研究成果可应用于多模态大语言模型的图像描述能力评估与优化。通过ICBench基准和ITIScore指标,可以更准确地评估不同模型的性能,并指导模型的设计和训练。此外,该方法还可以扩展到其他多模态任务,如视觉问答、图像检索等,具有广泛的应用前景。

📄 摘要(原文)

Recent advances in multimodal large language models (MLLMs) have greatly improved image understanding and captioning capabilities. However, existing image captioning benchmarks typically suffer from limited diversity in caption length, the absence of recent advanced MLLMs, and insufficient human annotations, which potentially introduces bias and limits the ability to comprehensively assess the performance of modern MLLMs. To address these limitations, we present a new large-scale image captioning benchmark, termed, ICBench, which covers 12 content categories and consists of both short and long captions generated by 10 advanced MLLMs on 2K images, resulting in 40K captions in total. We conduct extensive human subjective studies to obtain mean opinion scores (MOSs) across fine-grained evaluation dimensions, where short captions are assessed in terms of fluency, relevance, and conciseness, while long captions are evaluated based on fluency, relevance, and completeness. Furthermore, we propose an automated evaluation metric, \textbf{ITIScore}, based on an image-to-text-to-image framework, which measures caption quality through reconstruction consistency. Experimental results demonstrate strong alignment between our automatic metric and human judgments, as well as robust zero-shot generalization ability on other public captioning datasets. Both the dataset and model will be released upon publication.