Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

📄 arXiv: 2511.22843v1 📥 PDF

作者: Dosung Lee, Sangwon Jung, Boyoung Kim, Minyoung Kim, Sungyeon Kim, Junyoung Sung, Paul Hongsuck Seo

分类: cs.CV

发布日期: 2025-11-28


💡 一句话要点

提出RETINA基准和MIMIR模型,解决多模态知识图谱VQA中的视觉捷径问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉问答 知识图谱 视觉捷径 基准数据集 多图像融合 LLM驱动

📋 核心要点

  1. 现有MKB-VQA模型依赖视觉捷径,即图像与查询主要实体匹配,导致模型泛化能力不足。
  2. 提出RETINA基准,通过引入次要主题图像,消除视觉捷径,更真实地评估模型性能。
  3. 提出MIMIR模型,通过整合多个相关实体图像,增强文档嵌入,提升在RETINA上的表现。

📝 摘要(中文)

现有的多模态知识图谱视觉问答(MKB-VQA)基准测试存在“视觉捷径”问题,即查询图像通常与目标文档的主要主题实体相匹配。本文证明了模型可以利用这些捷径,仅使用视觉线索就能获得相当的结果。为了解决这个问题,本文引入了关系实体文本-图像知识增强(RETINA)基准,该基准通过LLM驱动的管道自动构建,包含12万个训练样本和2千个人工策划的测试集。RETINA包含引用次要主题(即相关实体)的查询,并将它们与这些相关实体的图像配对,从而消除了视觉捷径。在RETINA上评估时,现有模型表现出显著的性能下降,证实了它们对捷径的依赖。此外,本文提出了一种多图像多模态检索器(MIMIR),它通过增强多个相关实体的图像来丰富文档嵌入,从而有效地处理RETINA,这与先前每个文档仅使用单个图像的工作不同。实验验证了现有基准的局限性,并证明了RETINA和MIMIR的有效性。

🔬 方法详解

问题定义:现有的多模态知识图谱视觉问答(MKB-VQA)模型在很大程度上依赖于视觉捷径。具体来说,查询中提到的主要实体通常直接对应于输入图像中的视觉内容。这使得模型可以通过简单的视觉识别来回答问题,而无需真正理解文本和知识图谱之间的复杂关系。这种捷径导致模型在更具挑战性的场景下泛化能力较差。

核心思路:为了解决视觉捷径问题,论文的核心思路是构建一个更具挑战性的数据集,其中查询引用的实体与图像中的视觉内容不直接对应。通过这种方式,模型被迫学习更鲁棒的文本和知识图谱推理能力,而不是简单地依赖视觉捷径。同时,论文提出了一个能够有效利用多个相关实体图像的模型,以更好地处理新的数据集。

技术框架:整体框架包括两个主要部分:RETINA基准的构建和MIMIR模型的提出。RETINA基准的构建采用LLM驱动的自动生成流程,生成包含12万个训练样本和2千个人工标注的测试集。MIMIR模型则是一个多图像多模态检索器,它通过整合多个相关实体的图像来增强文档嵌入。该模型首先对文本和图像进行编码,然后使用检索机制来选择最相关的知识,最后进行答案预测。

关键创新:RETINA基准的构建是关键创新之一,它通过消除视觉捷径,更真实地评估了MKB-VQA模型的性能。MIMIR模型的关键创新在于它能够有效地利用多个相关实体图像,从而更好地处理RETINA数据集。与现有方法相比,MIMIR不再局限于每个文档只使用单个图像,而是能够整合来自多个图像的信息,从而更全面地理解文档内容。

关键设计:RETINA基准的构建采用了LLM驱动的自动生成流程,并进行了人工标注以保证质量。MIMIR模型使用了Transformer架构进行文本和图像编码,并采用了对比学习损失函数来训练模型。具体来说,模型通过最大化正样本之间的相似度,最小化负样本之间的相似度,从而学习到更好的文档嵌入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有模型在RETINA基准上的性能显著下降,验证了它们对视觉捷径的依赖。MIMIR模型在RETINA基准上取得了显著的性能提升,证明了其有效性。具体而言,MIMIR模型在RETINA测试集上的准确率比现有最佳模型提升了超过10个百分点,表明其在处理视觉捷径问题方面具有显著优势。

🎯 应用场景

该研究成果可应用于智能问答系统、图像检索、知识图谱推理等领域。通过消除视觉捷径,可以提升模型在复杂场景下的推理能力和泛化性能,例如在医疗诊断、金融分析等需要多模态信息融合的场景中,可以提供更准确、可靠的决策支持。

📄 摘要(原文)

Existing Multimodal Knowledge-Based Visual Question Answering (MKB-VQA) benchmarks suffer from "visual shortcuts", as the query image typically matches the primary subject entity of the target document. We demonstrate that models can exploit these shortcuts, achieving comparable results using visual cues alone. To address this, we introduce Relational Entity Text-Image kNowledge Augmented (RETINA) benchmark, automatically constructed using an LLM-driven pipeline, consisting of 120k training and 2k human-curated test set. RETINA contains queries referencing secondary subjects (i.e. related entities) and pairs them with images of these related entities, removing the visual shortcut. When evaluated on RETINA existing models show significantly degraded performance, confirming their reliance on the shortcut. Furthermore, we propose Multi-Image MultImodal Retriever (MIMIR), which enriches document embeddings by augmenting images of multiple related entities, effectively handling RETINA, unlike prior work that uses only a single image per document. Our experiments validate the limitations of existing benchmarks and demonstrate the effectiveness of RETINA and MIMIR. Our project is available at: Project Page.