MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval

📄 arXiv: 2509.26378v1 📥 PDF

作者: Junjie Zhou, Ze Liu, Lei Xiong, Jin-Ge Yao, Yueze Wang, Shitao Xiao, Fenfen Lin, Miguel Hu Chen, Zhicheng Dou, Siqi Bao, Defu Lian, Yongping Xiong, Zheng Liu

分类: cs.IR, cs.CV

发布日期: 2025-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出MR$^2$-Bench,一个面向多模态检索推理能力评估的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 推理能力 基准测试 视觉推理 自然语言处理

📋 核心要点

  1. 现有基准测试侧重于浅层语义匹配,无法有效评估模型在多模态检索中进行深层推理的能力。
  2. MR$^2$-Bench通过构建推理驱动的任务,并包含多样化的多模态数据,来全面评估模型的推理能力。
  3. 实验表明,即使在现有基准上表现良好的模型,在MR$^2$-Bench上的性能也显著下降,突显了其挑战性。

📝 摘要(中文)

多模态检索正成为现代人工智能应用的关键组成部分,但其评估滞后于更真实和更具挑战性的场景需求。现有的基准主要探测表面语义对应(例如,对象-文本匹配),而未能评估捕获视觉和文本信息之间复杂关系所需的更深层次的推理能力。为了解决这个差距,我们引入了MR$^2$-Bench,这是一个推理密集型的多模态检索基准。MR$^2$-Bench 具有以下关键价值:1) 所有任务都是推理驱动的,超越了浅层匹配,有效地评估了模型进行逻辑、空间和因果推理的能力;2) 它具有多样化的多模态数据,例如自然图像、图表和视觉谜题,从而能够跨内容类型进行全面评估;3) 它支持包含多个图像的复杂查询和文档,并涵盖了各种检索场景,更准确地反映了真实世界的应用。我们的基准包含 1,309 个精心策划的查询,这些查询来自手动收集和注释或选择性地整合公共数据集。尽管在现有基准上取得了不错的成绩,但当前最先进的模型在 MR$^2$-Bench 上仍然表现不佳:例如,领先的 Seed1.6-Embedding 模型在 MMEB 上的 Recall@1 为 77.78,但在 MR$^2$-Bench 上的 Recall@1 仅为 9.91。这种巨大的性能差距凸显了我们的基准带来的更大挑战,以及对推理密集型多模态检索的进一步发展的迫切需求。数据集和评估代码将在 https://github.com/VectorSpaceLab/MR2-Bench 上公开。

🔬 方法详解

问题定义:论文旨在解决多模态检索领域缺乏有效评估模型推理能力的基准测试的问题。现有基准主要关注图像和文本之间的浅层匹配,例如对象识别和简单的语义对应,而忽略了逻辑、空间和因果等深层推理能力。这导致模型在真实场景下的性能无法得到准确评估。

核心思路:论文的核心思路是构建一个推理密集型的多模态检索基准,即MR$^2$-Bench。该基准包含需要逻辑、空间和因果推理才能解决的任务,从而能够更全面地评估模型的多模态理解和推理能力。通过引入多样化的多模态数据,例如自然图像、图表和视觉谜题,进一步增强了基准的挑战性和实用性。

技术框架:MR$^2$-Bench包含1309个精心策划的查询,这些查询来源于手动收集、标注以及对现有公共数据集的选择性整合。基准测试支持复杂的查询和包含多个图像的文档,模拟了真实世界的检索场景。评估指标主要关注检索的准确率,例如Recall@1。

关键创新:MR$^2$-Bench的关键创新在于其对推理能力的强调。与现有基准侧重于浅层匹配不同,MR$^2$-Bench中的任务需要模型进行逻辑推理、空间推理和因果推理才能正确检索到相关信息。这种设计使得MR$^2$-Bench能够更有效地评估模型的多模态理解和推理能力。

关键设计:MR$^2$-Bench的数据集包含多种类型的数据,包括自然图像、图表和视觉谜题。查询的设计也更加复杂,需要模型理解图像和文本之间的深层关系。此外,基准测试还考虑了真实世界的检索场景,例如包含多个图像的文档和复杂的查询。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使在现有基准(如MMEB)上表现出色的模型(如Seed1.6-Embedding),在MR$^2$-Bench上的性能也显著下降。例如,Seed1.6-Embedding在MMEB上的Recall@1为77.78,但在MR$^2$-Bench上仅为9.91。这一巨大的性能差距突显了MR$^2$-Bench的挑战性,并表明现有模型在推理密集型多模态检索方面仍有很大的提升空间。

🎯 应用场景

MR$^2$-Bench的潜在应用领域包括智能搜索引擎、视觉问答系统、机器人导航和智能推荐系统等。通过更准确地评估模型的多模态推理能力,可以促进这些应用在真实世界场景中的部署和应用,提升用户体验和效率。该基准的发布也将推动多模态理解和推理领域的研究进展。

📄 摘要(原文)

Multimodal retrieval is becoming a crucial component of modern AI applications, yet its evaluation lags behind the demands of more realistic and challenging scenarios. Existing benchmarks primarily probe surface-level semantic correspondence (e.g., object-text matching) while failing to assess the deeper reasoning required to capture complex relationships between visual and textual information. To address this gap, we introduce MR$^2$-Bench, a reasoning-intensive benchmark for multimodal retrieval. MR$^2$-Bench presents the following critical values: 1) all tasks are reasoning-driven, going beyond shallow matching to effectively assess models' capacity for logical, spatial, and causal inference; 2) it features diverse multimodal data, such as natural images, diagrams, and visual puzzles, enabling comprehensive evaluation across content types; 3) it supports complex queries and documents containing multiple images and covers diverse retrieval scenarios, more accurately reflecting real-world applications. Our benchmark contains 1,309 curated queries, derived either from manual collection and annotation or from selective consolidation of public datasets. Despite achieving strong results on existing benchmarks, current state-of-the-art models still struggle on MR$^2$-Bench: for example, the leading Seed1.6-Embedding model attains a Recall@1 of 77.78 on MMEB, but only 9.91 on MR$^2$-Bench. This substantial performance gap highlights both the increased challenge posed by our benchmark and the pressing need for further advances in reasoning-intensive multimodal retrieval. The dataset and evaluation code will be made publicly available at https://github.com/VectorSpaceLab/MR2-Bench.