SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation

📄 arXiv: 2509.03897v2 📥 PDF

作者: Xiaofu Chen, Israfel Salazar, Yova Kementchedjhieva

分类: cs.CV, cs.CL

发布日期: 2025-09-04 (更新: 2025-09-12)

🔗 代码/项目: GITHUB


💡 一句话要点

SPECS:用于长图像描述评估的特异性增强CLIP-Score

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述评估 CLIP模型 表征相似性 长文本生成 特异性增强 无参考评估 多模态学习

📋 核心要点

  1. 现有图像描述评估指标,如N-gram和传统RS指标,在评估长文本描述时存在语义捕捉不足和与人类判断相关性低的问题。
  2. SPECS通过引入特异性增强的CLIP目标,奖励正确细节并惩罚错误细节,从而提升了评估指标的准确性和与人类判断的相关性。
  3. 实验表明,SPECS在与人类判断的相关性上与基于LLM的指标相当,但计算效率更高,适用于模型迭代开发过程。

📝 摘要(中文)

随着生成长而详细的图像描述的需求增长,标准的评估指标变得越来越不可靠。基于N-gram的指标虽然高效,但无法捕捉语义的正确性。表征相似性(RS)指标旨在解决这个问题,但由于计算成本高昂,最初的应用有限。尽管硬件取得了进步,但由于与人类判断的相关性较低,RS指标仍然不受欢迎。同时,基于大型语言模型(LLM)的指标与人类判断表现出很强的相关性,但对于模型开发过程中的迭代使用来说,成本仍然过高。我们引入了SPECS(特异性增强CLIPScore),这是一种为长图像描述量身定制的无参考RS指标。SPECS通过一个新的目标修改了CLIP,该目标强调特异性:奖励正确的细节,惩罚不正确的细节。我们表明,SPECS在与人类判断的相关性方面与基于开源LLM的指标的性能相匹配,同时效率更高。这使其成为图像描述模型开发过程中迭代检查点评估的实用替代方案。

🔬 方法详解

问题定义:现有长图像描述评估方法存在不足。N-gram指标无法捕捉语义信息,而传统的表征相似性(RS)指标计算成本高,且与人类判断的相关性较低。基于大型语言模型(LLM)的指标虽然相关性高,但计算开销大,不适合模型迭代开发。

核心思路:SPECS的核心思路是通过修改CLIP模型的目标函数,使其更加关注图像描述的特异性。具体来说,SPECS奖励那些描述图像中正确细节的caption,同时惩罚那些描述错误细节的caption。这种特异性增强使得SPECS能够更准确地评估长图像描述的质量。

技术框架:SPECS基于CLIP模型,主要包含图像编码器和文本编码器。首先,图像和caption分别通过各自的编码器得到图像特征和文本特征。然后,通过计算图像特征和文本特征之间的相似度来评估caption的质量。关键在于,SPECS修改了CLIP的训练目标,引入了特异性损失函数。

关键创新:SPECS的关键创新在于其特异性增强的CLIP目标函数。传统的CLIP目标旨在最大化图像和对应文本之间的相似度,而SPECS在此基础上增加了对特异性的考量。这种特异性增强使得SPECS能够更好地识别和奖励那些描述图像中特定细节的caption,从而提高评估的准确性。

关键设计:SPECS的关键设计在于特异性损失函数。具体来说,该损失函数包含两部分:一部分是传统的CLIP损失,用于保证图像和对应文本之间的整体相似度;另一部分是特异性损失,用于奖励那些描述图像中正确细节的caption,同时惩罚那些描述错误细节的caption。特异性损失的具体形式未知,需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPECS在与人类判断的相关性方面达到了与基于开源LLM的指标相当的水平,同时计算效率远高于LLM指标。这使得SPECS成为长图像描述评估的实用替代方案,尤其适用于资源受限的场景。具体的性能数据和对比基线需要在论文中进一步查找。

🎯 应用场景

SPECS可应用于图像描述生成模型的评估和迭代优化,尤其适用于需要生成长而详细描述的场景,例如辅助视觉障碍人士理解图像内容、智能相册的自动标注、以及电商平台的产品描述生成等。SPECS的高效性使其能够在模型开发过程中进行快速评估,加速模型迭代。

📄 摘要(原文)

As interest grows in generating long, detailed image captions, standard evaluation metrics become increasingly unreliable. N-gram-based metrics though efficient, fail to capture semantic correctness. Representational Similarity (RS) metrics, designed to address this, initially saw limited use due to high computational costs, while today, despite advances in hardware, they remain unpopular due to low correlation to human judgments. Meanwhile, metrics based on large language models (LLMs) show strong correlation with human judgments, but remain too expensive for iterative use during model development. We introduce SPECS (Specificity-Enhanced CLIPScore), a reference-free RS metric tailored to long image captioning. SPECS modifies CLIP with a new objective that emphasizes specificity: rewarding correct details and penalizing incorrect ones. We show that SPECS matches the performance of open-source LLM-based metrics in correlation to human judgments, while being far more efficient. This makes it a practical alternative for iterative checkpoint evaluation during image captioning model development.Our code can be found at https://github.com/mbzuai-nlp/SPECS.