From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

📄 arXiv: 2605.15019v1 📥 PDF

作者: Guanhua Chen, Chuyue Huang, Yutong Yao, Shudong Liu, Xueqing Song, Lidia S. Chao, Derek F. Wong

分类: cs.CL

发布日期: 2026-05-14


💡 一句话要点

提出GranuRAG,通过多粒度证据检索解决可验证多模态RAG中细粒度查询问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态RAG 视觉元素检索 跨模态对齐 细粒度检索 可验证性 目标检测 智能问答

📋 核心要点

  1. 现有多模态RAG系统在图像或场景级别检索信息,无法满足细粒度查询需求,导致结果不可靠且难以验证。
  2. GranuRAG将视觉元素作为检索单元,通过元素级检测、跨模态对齐和属性约束生成,实现多粒度证据检索。
  3. 实验表明,GranuRAG在GranuVistaVQA基准测试中,相比现有方法,性能提升高达29.2%,显著提高了准确性和可验证性。

📝 摘要(中文)

多模态检索增强生成(RAG)系统在粗粒度级别(整个图像或场景)检索证据,这与细粒度的用户查询不匹配,导致失败难以验证。本文提出了GranuVistaVQA,这是一个多模态基准,以真实世界的地标为特色,具有跨多个视点的元素级注释,捕捉了部分观察挑战,即单个图像仅包含实体子集。此外,本文还提出了GranuRAG,这是一个多粒度框架,通过三个阶段将视觉元素视为第一类检索单元:元素级检测和分类、用于证据检索的多粒度跨模态对齐以及属性约束生成。通过在元素级别进行检索,而不是依赖于隐式注意力,该方法能够实现透明的错误诊断。实验表明,对于此任务,GranuRAG比六个强大的基线提高了高达29.2%。

🔬 方法详解

问题定义:现有的多模态RAG系统通常以粗粒度的方式(例如,整个图像或场景)检索证据,这与用户提出的细粒度问题不匹配。这种不匹配导致检索到的信息不够精确,使得生成的结果可能不准确,并且难以验证其真实性。此外,现实世界中的图像通常只包含场景的部分信息,进一步加剧了这个问题。

核心思路:GranuRAG的核心思路是将视觉元素(例如,图像中的特定物体或区域)作为第一类检索单元。通过检测和识别图像中的各个元素,并利用这些元素进行跨模态对齐,可以更精确地检索到与用户查询相关的证据。这种细粒度的检索方式能够提高生成结果的准确性和可验证性。

技术框架:GranuRAG框架包含三个主要阶段:1) 元素级检测和分类:使用目标检测模型识别图像中的各个视觉元素,并对其进行分类。2) 多粒度跨模态对齐:将用户查询与检测到的视觉元素进行跨模态对齐,以确定哪些元素与查询最相关。该阶段可能涉及使用对比学习或其他技术来学习视觉元素和文本查询之间的相似度。3) 属性约束生成:利用检索到的视觉元素和用户查询生成答案,并使用属性约束来确保生成结果的准确性和一致性。

关键创新:GranuRAG的关键创新在于将视觉元素作为第一类检索单元,并设计了一个多粒度跨模态对齐机制,能够更精确地检索到与用户查询相关的证据。与传统的RAG方法相比,GranuRAG避免了依赖于隐式注意力机制,而是直接利用检测到的视觉元素进行检索,从而提高了结果的可解释性和可验证性。

关键设计:具体的技术细节可能包括:使用的目标检测模型(例如,Faster R-CNN, YOLO),跨模态对齐的方法(例如,对比学习,注意力机制),以及属性约束生成的方式(例如,使用知识图谱或规则)。损失函数的设计可能包括对比损失、交叉熵损失等,用于训练模型以提高元素检测和跨模态对齐的准确性。网络结构可能包含视觉编码器、文本编码器和跨模态融合模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GranuRAG在GranuVistaVQA基准测试中取得了显著的性能提升,相比六个强大的基线方法,性能提升高达29.2%。这表明GranuRAG能够更有效地利用视觉元素进行证据检索,从而提高多模态RAG系统的准确性和可验证性。该结果验证了将视觉元素作为第一类检索单元的有效性。

🎯 应用场景

该研究成果可应用于智能问答系统、视觉搜索、机器人导航等领域。例如,在智能问答系统中,可以利用GranuRAG更准确地回答用户关于图像内容的细粒度问题。在视觉搜索中,可以根据用户提供的文本描述,检索包含特定视觉元素的图像。在机器人导航中,可以帮助机器人理解周围环境,并根据指令找到特定的物体。

📄 摘要(原文)

Multimodal Retrieval-Augmented Generation (RAG) systems retrieve evidence at coarse granularities (entire images or scenes), creating a mismatch with fine-grained user queries and making failures unverifiable. We introduce GranuVistaVQA, a multimodal benchmark featuring real-world landmarks with element-level annotations across multiple viewpoints, capturing the partial observation challenge where individual images contain only subsets of entities. We further propose GranuRAG, a multi-granularity framework that treats visual elements as first-class retrieval units through three stages: element-level detection and classification, multi-granularity cross-modal alignment for evidence retrieval, and attribution-constrained generation. By grounding retrieval at the element level rather than relying on implicit attention, our approach enables transparent error diagnosis. Experiments demonstrate that GranuRAG achieves up to 29.2% improvement over six strong baselines for this task.