Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation

📄 arXiv: 2408.01363v1 📥 PDF

作者: Jheng-Hong Yang, Jimmy Lin

分类: cs.IR, cs.CL, cs.CV, cs.MM

发布日期: 2024-08-02

备注: Accepted by ACM SIGIR 2024 LLM4Eval Workshop: https://llm4eval.github.io/papers


💡 一句话要点

利用视觉-语言模型提升图像-文本检索的相关性判断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 相关性判断 图像-文本检索 多媒体内容 零样本学习

📋 核心要点

  1. 现有的相关性判断方法在多媒体内容检索中存在偏见和准确性不足的问题。
  2. 本文提出利用视觉-语言模型(如LLaVA和GPT-4V)进行相关性判断,以提高检索的准确性和公平性。
  3. 实验结果表明,LLaVA和GPT-4V在与人类判断的比较中表现优异,Kendall's τ值达到0.4,显示出显著的性能提升。

📝 摘要(中文)

视觉-语言模型(VLMs)在多种应用中取得了成功,但其在相关性判断中的潜力尚不明确。本文评估了VLMs(包括CLIP、LLaVA和GPT-4V)在大规模检索任务中的相关性估计能力,特别是在零样本情况下的多媒体内容创作。初步实验结果显示,LLaVA和GPT-4V在与人类判断的比较中,Kendall's τ值约为0.4,超越了CLIPScore指标。此外,尽管CLIPScore受到强烈偏好,LLMs对基于CLIP的检索系统的偏见较小。GPT-4V的得分分布与人类判断更为接近,Cohen's κ值约为0.08,优于CLIPScore的-0.096。这些发现强调了LLM驱动的VLMs在提升相关性判断方面的潜力。

🔬 方法详解

问题定义:本文旨在解决现有相关性判断方法在多媒体检索中存在的偏见和准确性不足的问题,尤其是在零样本情况下的表现。

核心思路:通过评估视觉-语言模型(VLMs)在相关性判断中的能力,探索其在多媒体内容创作中的应用潜力,尤其是LLaVA和GPT-4V的表现。

技术框架:研究采用了大规模的检索任务,利用VLMs进行相关性估计,主要模块包括数据集构建、模型训练和评估指标计算。

关键创新:本研究的创新在于首次系统性评估了多种VLMs在相关性判断中的表现,特别是LLaVA和GPT-4V在零样本检索中的应用。

关键设计:在实验中,使用了Kendall's τ和Cohen's κ作为评估指标,重点比较了不同模型的得分分布和与人类判断的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLaVA和GPT-4V在与人类判断的比较中,Kendall's τ值达到约0.4,显著超越了CLIPScore的表现。此外,GPT-4V的Cohen's κ值约为0.08,优于CLIPScore的-0.096,表明其得分分布与人类判断更为一致。

🎯 应用场景

该研究的潜在应用领域包括多媒体内容检索、信息检索系统和智能推荐系统。通过提升相关性判断的准确性,能够为用户提供更精准的搜索结果,进而改善用户体验。未来,该研究可能推动更广泛的视觉-语言模型在信息检索领域的应用,促进多模态数据的融合与理解。

📄 摘要(原文)

Vision--Language Models (VLMs) have demonstrated success across diverse applications, yet their potential to assist in relevance judgments remains uncertain. This paper assesses the relevance estimation capabilities of VLMs, including CLIP, LLaVA, and GPT-4V, within a large-scale \textit{ad hoc} retrieval task tailored for multimedia content creation in a zero-shot fashion. Preliminary experiments reveal the following: (1) Both LLaVA and GPT-4V, encompassing open-source and closed-source visual-instruction-tuned Large Language Models (LLMs), achieve notable Kendall's $τ\sim 0.4$ when compared to human relevance judgments, surpassing the CLIPScore metric. (2) While CLIPScore is strongly preferred, LLMs are less biased towards CLIP-based retrieval systems. (3) GPT-4V's score distribution aligns more closely with human judgments than other models, achieving a Cohen's $κ$ value of around 0.08, which outperforms CLIPScore at approximately -0.096. These findings underscore the potential of LLM-powered VLMs in enhancing relevance judgments.