Vision-Language Models Struggle to Align Entities across Modalities

📄 arXiv: 2503.03854v2 📥 PDF

作者: Iñigo Alonso, Gorka Azkune, Ander Salaberria, Jeremy Barnes, Oier Lopez de Lacalle

分类: cs.CL

发布日期: 2025-03-05 (更新: 2025-05-30)

备注: Accepted Findings ACL 2025


💡 一句话要点

提出MATE基准,揭示视觉-语言模型在跨模态实体对齐上的不足

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态实体链接 视觉-语言模型 问答系统 多模态学习 基准测试

📋 核心要点

  1. 现有视觉-语言模型在跨模态实体链接方面存在不足,无法有效对齐不同模态下的实体及其属性。
  2. 论文提出MATE基准,包含视觉场景及其文本描述,通过问答任务评估模型跨模态实体链接能力。
  3. 实验表明,现有VLM在MATE基准上表现远低于人类水平,尤其是在复杂场景下,思维链提示虽有提升但仍有差距。

📝 摘要(中文)

跨模态实体链接是指在不同模态之间对齐实体及其属性的能力。尽管跨模态实体链接是多模态代码生成、虚假新闻检测或场景理解等实际应用所需的基本技能,但文献中尚未对其进行深入研究。本文介绍了一项新的任务和基准来弥补这一差距。我们的基准MATE包含5.5k个评估实例,这些实例具有与其文本表示对齐的视觉场景。为了评估跨模态实体链接性能,我们设计了一个问答任务,该任务涉及基于一个模态中对象的唯一属性来检索另一个模态中对象的属性。我们评估了最先进的视觉-语言模型(VLM)和人类在此任务上的表现,发现与人类相比,VLM表现不佳,尤其是在场景中对象数量增加时。我们的分析还表明,虽然思维链提示可以提高VLM的性能,但模型仍然远未达到人类水平。这些发现突出了进一步研究跨模态实体链接的必要性,并表明MATE是支持该进展的强大基准。

🔬 方法详解

问题定义:论文旨在解决跨模态实体链接问题,即如何使视觉-语言模型能够准确地将不同模态(例如图像和文本)中描述的同一实体及其属性对应起来。现有方法在处理复杂场景、多实体关系时表现不佳,缺乏专门的评估基准。

核心思路:论文的核心思路是构建一个高质量的跨模态实体链接基准MATE,并设计一个问答任务来评估模型在该基准上的表现。通过分析模型在MATE上的表现,可以深入了解模型在跨模态实体对齐方面的能力和局限性。

技术框架:MATE基准包含5.5k个视觉场景及其对应的文本描述。评估任务是一个问答任务,给定一个模态中对象的某个属性,模型需要从另一个模态中检索该对象的另一个属性。例如,给定图像中“红色的苹果”,模型需要回答文本描述中“苹果的形状”。

关键创新:MATE基准的创新之处在于其专注于跨模态实体链接,并提供了一个专门的评估框架。该基准包含复杂场景和多实体关系,能够更全面地评估模型的跨模态理解能力。问答任务的设计也更贴近实际应用场景。

关键设计:MATE基准的数据生成过程未知。问答任务的评估指标是准确率。论文评估了多个最先进的视觉-语言模型,并尝试了思维链提示等技术来提高模型性能。具体模型参数设置和损失函数等细节未在摘要中提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有视觉-语言模型在MATE基准上的表现远低于人类水平,尤其是在场景中对象数量增加时。即使使用思维链提示,模型性能也远未达到人类水平。这表明现有模型在跨模态实体链接方面仍存在显著差距,需要进一步研究。

🎯 应用场景

该研究成果可应用于多模态代码生成、虚假新闻检测、场景理解等领域。提升跨模态实体链接能力有助于模型更好地理解真实世界,并为更高级的多模态任务提供支持。未来的研究可以基于MATE基准,探索更有效的跨模态对齐方法,例如引入更强的先验知识或设计更精细的注意力机制。

📄 摘要(原文)

Cross-modal entity linking refers to the ability to align entities and their attributes across different modalities. While cross-modal entity linking is a fundamental skill needed for real-world applications such as multimodal code generation, fake news detection, or scene understanding, it has not been thoroughly studied in the literature. In this paper, we introduce a new task and benchmark to address this gap. Our benchmark, MATE, consists of 5.5k evaluation instances featuring visual scenes aligned with their textual representations. To evaluate cross-modal entity linking performance, we design a question-answering task that involves retrieving one attribute of an object in one modality based on a unique attribute of that object in another modality. We evaluate state-of-the-art Vision-Language Models (VLMs) and humans on this task, and find that VLMs struggle significantly compared to humans, particularly as the number of objects in the scene increases. Our analysis also shows that, while chain-of-thought prompting can improve VLM performance, models remain far from achieving human-level proficiency. These findings highlight the need for further research in cross-modal entity linking and show that MATE is a strong benchmark to support that progress.