BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues

📄 arXiv: 2407.20341v1 📥 PDF

作者: Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2024-07-29

备注: ECCV 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出BRIDGE,通过增强视觉线索弥合图像描述评估中的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述评估 无参考指标 视觉特征融合 多模态学习 深度学习

📋 核心要点

  1. 现有图像描述评估指标(如CIDEr、CLIP-Score)未能充分考虑图像信息或细粒度细节,导致与人类判断存在偏差。
  2. BRIDGE通过将视觉特征映射到密集向量,并将其融入多模态伪描述中,从而有效利用图像信息进行评估。
  3. 实验结果表明,BRIDGE在多个数据集上取得了优于现有无参考指标的性能,更贴近人类的评价标准。

📝 摘要(中文)

在评估机器生成的图像描述时,如何有效地与人类判断对齐是一个复杂而有趣的挑战。现有的评估指标,如CIDEr或CLIP-Score,在这方面存在不足,因为它们没有考虑相应的图像,或者缺乏编码细粒度细节和惩罚幻觉的能力。为了克服这些问题,本文提出了一种新的可学习的、无参考的图像描述评估指标BRIDGE,它采用了一种新颖的模块,将视觉特征映射到密集向量,并将它们集成到评估过程中构建的多模态伪描述中。这种方法产生了一种多模态指标,可以适当地整合来自输入图像的信息,而无需依赖参考描述,从而弥合了人类判断和机器生成的图像描述之间的差距。跨多个数据集的实验表明,与现有的无参考评估分数相比,该方法实现了最先进的结果。源代码和训练好的模型已公开。

🔬 方法详解

问题定义:图像描述评估旨在衡量机器生成的描述与图像内容的相关性和准确性。现有方法,特别是无参考指标,往往无法充分利用图像信息,或者难以捕捉细粒度的视觉细节,导致评估结果与人类判断不一致。这些指标容易受到幻觉信息的影响,即描述中出现图像中不存在的内容。

核心思路:BRIDGE的核心思路是利用图像的视觉特征来增强评估过程。通过将图像特征编码成密集向量,并将其融入到伪描述中,从而使评估指标能够更好地理解图像内容,并更准确地评估生成描述的质量。这种方法旨在弥合机器评估和人类判断之间的差距。

技术框架:BRIDGE的整体框架包括以下几个主要模块:1) 视觉特征提取模块:用于从输入图像中提取视觉特征。2) 视觉特征映射模块:将提取的视觉特征映射到密集向量空间。3) 多模态伪描述构建模块:将映射后的视觉特征向量与生成的描述相结合,构建多模态伪描述。4) 评估模块:使用构建的多模态伪描述来评估生成描述的质量。该框架无需参考描述,直接基于图像和生成描述进行评估。

关键创新:BRIDGE的关键创新在于其视觉特征映射模块和多模态伪描述构建方法。视觉特征映射模块能够将图像特征编码成更具表达力的密集向量,从而更好地捕捉图像的语义信息。多模态伪描述构建方法能够将视觉信息与文本信息有效地融合,从而使评估指标能够更全面地理解图像和描述之间的关系。

关键设计:BRIDGE的具体实现细节包括:视觉特征提取模块可以使用预训练的卷积神经网络(如ResNet)来提取图像特征。视觉特征映射模块可以使用多层感知机(MLP)或Transformer网络来实现。多模态伪描述构建模块可以使用注意力机制或拼接操作来实现。损失函数的设计目标是使BRIDGE的评估结果与人类判断尽可能一致。具体参数设置和网络结构的选择需要根据具体数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BRIDGE在多个图像描述数据集上进行了实验,结果表明其性能优于现有的无参考评估指标。例如,在COCO数据集上,BRIDGE的性能显著优于CLIP-Score等基线方法,更接近人类的评价标准。实验结果验证了BRIDGE在图像描述评估方面的有效性和优越性。

🎯 应用场景

BRIDGE可应用于图像描述生成模型的评估与优化,提升模型生成描述的质量和准确性。此外,该技术还可扩展到其他多模态任务,如视觉问答、图像检索等,为相关领域提供更可靠的评估指标,促进人工智能技术的发展。

📄 摘要(原文)

Effectively aligning with human judgment when evaluating machine-generated image captions represents a complex yet intriguing challenge. Existing evaluation metrics like CIDEr or CLIP-Score fall short in this regard as they do not take into account the corresponding image or lack the capability of encoding fine-grained details and penalizing hallucinations. To overcome these issues, in this paper, we propose BRIDGE, a new learnable and reference-free image captioning metric that employs a novel module to map visual features into dense vectors and integrates them into multi-modal pseudo-captions which are built during the evaluation process. This approach results in a multimodal metric that properly incorporates information from the input image without relying on reference captions, bridging the gap between human judgment and machine-generated image captions. Experiments spanning several datasets demonstrate that our proposal achieves state-of-the-art results compared to existing reference-free evaluation scores. Our source code and trained models are publicly available at: https://github.com/aimagelab/bridge-score.