MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
作者: Wenbo Hu, Jia-Chen Gu, Zi-Yi Dou, Mohsen Fayyaz, Pan Lu, Kai-Wei Chang, Nanyun Peng
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-10-10 (更新: 2025-03-19)
备注: ICLR 2025
💡 一句话要点
MRAG-Bench:提出视觉中心的多模态检索增强生成评测基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 检索增强生成 评测基准 视觉信息检索
📋 核心要点
- 现有基准主要评估模型检索和利用外部文本知识的能力,忽略了视觉信息更优的场景。
- MRAG-Bench通过系统识别视觉知识优于文本知识的场景,构建视觉中心的多模态检索增强评测基准。
- 实验表明,所有LVLMs在图像增强时性能提升更显著,验证了MRAG-Bench的有效性,并揭示了现有模型利用检索知识的不足。
📝 摘要(中文)
本文提出了一种多模态检索增强生成评测基准MRAG-Bench,旨在系统性地识别和分类视觉增强知识优于文本知识的场景,例如,来自不同视角的更多图像。MRAG-Bench包含16,130张图像和1,353个由人工标注的多项选择题,涵盖9个不同的场景。利用MRAG-Bench,我们评估了10个开源和4个专有的大型视觉语言模型(LVLMs)。结果表明,与文本知识相比,所有LVLMs在图像增强时都表现出更大的改进,证实了MRAG-Bench的视觉中心特性。此外,我们使用MRAG-Bench进行了广泛的分析,为检索增强的LVLMs提供了有价值的见解。值得注意的是,性能最佳的模型GPT-4o在有效利用检索知识方面面临挑战,使用ground-truth信息时仅实现了5.82%的改进,而人类参与者则观察到33.16%的改进。这些发现突出了MRAG-Bench在鼓励社区增强LVLMs更有效地利用检索到的视觉知识的能力方面的重要性。
🔬 方法详解
问题定义:现有的大部分多模态检索基准侧重于评估模型利用文本知识进行问答的能力,忽略了在某些场景下,视觉信息比文本信息更有效或更容易获取的情况。例如,当需要从不同视角理解一个物体时,多张图片可能比一段文字描述更有帮助。因此,现有基准无法全面评估模型在视觉信息检索和利用方面的能力。
核心思路:本文的核心思路是构建一个视觉中心的多模态检索增强生成评测基准,即MRAG-Bench。该基准专门设计了一系列场景,在这些场景中,视觉知识的检索和利用对于解决问题至关重要。通过评估模型在这些场景下的表现,可以更准确地衡量模型在视觉信息处理方面的能力。
技术框架:MRAG-Bench包含以下几个关键组成部分:1) 收集包含16,130张图像的数据集;2) 设计9个不同的场景,这些场景需要模型检索和利用视觉信息才能有效解决问题;3) 针对每个场景,人工标注1,353个多项选择题,用于评估模型的性能。评估流程包括:给定一个问题,模型首先从数据集中检索相关的图像,然后利用检索到的图像和原始问题生成答案,最后将生成的答案与ground truth进行比较,计算模型的准确率。
关键创新:MRAG-Bench的关键创新在于其视觉中心的设计理念。与以往侧重于文本知识的基准不同,MRAG-Bench专门关注视觉知识的检索和利用。这使得MRAG-Bench能够更全面地评估模型在多模态信息处理方面的能力,并为未来的研究提供新的方向。
关键设计:MRAG-Bench的关键设计包括:1) 场景的多样性:9个场景涵盖了不同的视觉信息处理任务,例如物体识别、场景理解、关系推理等;2) 问题的难度:问题设计既要考察模型对视觉信息的理解能力,又要考察模型对文本信息的理解能力;3) 评估指标的合理性:采用准确率作为评估指标,能够直接反映模型在多项选择题上的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有被评估的LVLMs在图像增强时都表现出比文本知识增强时更大的性能提升,验证了MRAG-Bench的视觉中心特性。然而,即使是性能最佳的GPT-4o,在使用ground-truth信息进行检索增强时,也仅获得了5.82%的性能提升,远低于人类参与者的33.16%的提升,表明现有模型在有效利用检索到的知识方面仍有很大的提升空间。
🎯 应用场景
MRAG-Bench可用于评估和提升大型视觉语言模型在需要视觉信息检索和利用场景下的性能,例如智能助手、自动驾驶、医疗诊断等领域。通过该基准,可以推动模型更好地理解和利用视觉信息,从而提高其在实际应用中的表现,并促进多模态人工智能的发展。
📄 摘要(原文)
Existing multimodal retrieval benchmarks primarily focus on evaluating whether models can retrieve and utilize external textual knowledge for question answering. However, there are scenarios where retrieving visual information is either more beneficial or easier to access than textual data. In this paper, we introduce a multimodal retrieval-augmented generation benchmark, MRAG-Bench, in which we systematically identify and categorize scenarios where visually augmented knowledge is better than textual knowledge, for instance, more images from varying viewpoints. MRAG-Bench consists of 16,130 images and 1,353 human-annotated multiple-choice questions across 9 distinct scenarios. With MRAG-Bench, we conduct an evaluation of 10 open-source and 4 proprietary large vision-language models (LVLMs). Our results show that all LVLMs exhibit greater improvements when augmented with images compared to textual knowledge, confirming that MRAG-Bench is vision-centric. Additionally, we conduct extensive analysis with MRAG-Bench, which offers valuable insights into retrieval-augmented LVLMs. Notably, the top-performing model, GPT-4o, faces challenges in effectively leveraging retrieved knowledge, achieving only a 5.82% improvement with ground-truth information, in contrast to a 33.16% improvement observed in human participants. These findings highlight the importance of MRAG-Bench in encouraging the community to enhance LVLMs' ability to utilize retrieved visual knowledge more effectively.