Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

📄 arXiv: 2511.22843 📥 PDF

作者: Dosung Lee, Sangwon Jung, Boyoung Kim, Minyoung Kim, Sungyeon Kim, Junyoung Sung, Paul Hongsuck Seo

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出RETINA基准和MIMIR模型,解决多模态知识图谱VQA中的视觉捷径问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉问答 知识图谱 视觉捷径 基准测试

📋 核心要点

  1. 现有MKB-VQA模型依赖视觉捷径,忽略了图像与相关实体之间的关系,导致模型泛化能力不足。
  2. 提出RETINA基准,通过引入次要主题和相关实体图像,消除视觉捷径,更真实地评估模型性能。
  3. 设计MIMIR模型,利用多图像增强文档嵌入,有效处理RETINA基准,提升模型在复杂场景下的问答能力。

📝 摘要(中文)

现有的多模态知识图谱视觉问答(MKB-VQA)基准测试存在“视觉捷径”问题,即查询图像通常与目标文档的主要主题实体相匹配。研究表明,模型可以利用这些捷径,仅使用视觉线索就能获得相当的结果。为了解决这个问题,本文提出了关系实体文本-图像知识增强(RETINA)基准,该基准通过LLM驱动的管道自动构建,包含12万个训练样本和2千个人工策划的测试集。RETINA包含引用次要主题(即相关实体)的查询,并将它们与这些相关实体的图像配对,从而消除了视觉捷径。在RETINA上评估时,现有模型的性能显著下降,证实了它们对捷径的依赖。此外,本文提出了多图像多模态检索器(MIMIR),它通过增强多个相关实体的图像来丰富文档嵌入,从而有效地处理RETINA,这与先前每个文档仅使用单个图像的工作不同。实验验证了现有基准的局限性,并证明了RETINA和MIMIR的有效性。

🔬 方法详解

问题定义:现有的多模态知识图谱视觉问答(MKB-VQA)模型,在训练和测试时,图像通常直接对应于知识图谱中的主要实体。这使得模型可以利用视觉捷径,简单地通过识别图像中的主要对象来回答问题,而无需真正理解问题、图像和知识图谱之间的复杂关系。这种捷径导致模型在更具挑战性的场景下表现不佳,泛化能力受限。

核心思路:为了解决视觉捷径问题,核心思路是构建一个更具挑战性的数据集,其中图像不再直接对应于问题所涉及的主要实体,而是与相关的次要实体相关联。这样,模型就必须理解图像与知识图谱中实体之间的关系,才能正确回答问题。同时,设计一个能够有效利用多个相关图像的模型,以增强对知识图谱的理解。

技术框架:整体框架包含两个主要部分:RETINA基准的构建和MIMIR模型的提出。RETINA基准的构建利用LLM驱动的管道自动生成训练数据,并进行人工筛选以保证质量。MIMIR模型则是一个多图像多模态检索器,它首先对文本和图像进行编码,然后利用多图像信息增强文档嵌入,最后进行问答预测。

关键创新:最重要的创新点在于RETINA基准的构建,它通过引入次要主题和相关实体图像,有效地消除了视觉捷径。此外,MIMIR模型通过利用多个相关图像来增强文档嵌入,从而更好地理解图像与知识图谱之间的关系,这是与现有方法的主要区别,现有方法通常只使用单个图像。

关键设计:RETINA基准的关键设计在于使用LLM生成与次要实体相关的查询,并配以相应的图像。MIMIR模型的关键设计在于使用多头注意力机制来融合多个图像的信息,并将其用于增强文档嵌入。具体的损失函数和网络结构细节在论文中有详细描述,但摘要中未明确指出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RETINA基准上,现有模型的性能显著下降,验证了视觉捷径的存在。MIMIR模型在RETINA基准上取得了显著的性能提升,证明了其有效性。具体性能数据和对比基线在论文中有详细描述,但摘要中未明确指出具体的提升幅度。

🎯 应用场景

该研究成果可应用于智能问答系统、图像检索、知识图谱构建等领域。通过消除视觉捷径,可以提升模型在复杂场景下的理解和推理能力,使其能够更好地服务于实际应用,例如辅助医疗诊断、智能客服、教育等。

📄 摘要(原文)

Existing Multimodal Knowledge-Based Visual Question Answering (MKB-VQA) benchmarks suffer from "visual shortcuts", as the query image typically matches the primary subject entity of the target document. We demonstrate that models can exploit these shortcuts, achieving comparable results using visual cues alone. To address this, we introduce Relational Entity Text-Image kNowledge Augmented (RETINA) benchmark, automatically constructed using an LLM-driven pipeline, consisting of 120k training and 2k human-curated test set. RETINA contains queries referencing secondary subjects (i.e. related entities) and pairs them with images of these related entities, removing the visual shortcut. When evaluated on RETINA existing models show significantly degraded performance, confirming their reliance on the shortcut. Furthermore, we propose Multi-Image MultImodal Retriever (MIMIR), which enriches document embeddings by augmenting images of multiple related entities, effectively handling RETINA, unlike prior work that uses only a single image per document. Our experiments validate the limitations of existing benchmarks and demonstrate the effectiveness of RETINA and MIMIR. Our project is available at: Project Page.