Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

📄 arXiv: 2502.14864v1 📥 PDF

作者: Yuming Yang, Jiang Zhong, Li Jin, Jingwang Huang, Jingpeng Gao, Qing Liu, Yang Bai, Jingyuan Zhang, Rui Jiang, Kaiwen Wei

分类: cs.AI, cs.CV

发布日期: 2025-02-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出CHARGE框架与Chart-MRAG Bench,用于评估图表场景下的多模态RAG

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索增强生成 图表理解 文档问答 基准测试 跨模态推理

📋 核心要点

  1. 现有MRAG基准测试侧重于简单的图像-文本交互,忽略了现实场景中常见的复杂图表,限制了模型在实际应用中的评估。
  2. 提出CHARGE框架,通过结构化关键点提取、跨模态验证和关键点生成,半自动地生成高质量的图表问答评估数据。
  3. 构建了Chart-MRAG Bench,包含4,738个问答对,覆盖8个领域,揭示了现有方法在图表理解和多模态推理方面的不足。

📝 摘要(中文)

多模态检索增强生成(MRAG)通过整合外部知识来增强推理能力。然而,现有的基准测试主要集中在简单的图像-文本交互上,忽略了现实应用中普遍存在的复杂视觉格式,如图表。本文引入了一项新的任务,即基于图表的MRAG,以解决这一局限性。为了半自动地生成高质量的评估样本,我们提出了基于图表的文档问答生成(CHARGE)框架,该框架通过结构化的关键点提取、跨模态验证和基于关键点的生成来产生评估数据。通过将CHARGE与专家验证相结合,我们构建了Chart-MRAG Bench,这是一个全面的基于图表的MRAG评估基准,包含来自真实文档的8个领域的4,738个问答对。我们的评估揭示了当前方法的三个关键局限性:(1)统一的多模态嵌入检索方法在基于图表的场景中表现不佳,(2)即使使用ground-truth检索,最先进的MLLM也只能达到58.19%的正确率和73.87%的覆盖率,以及(3)MLLM在基于图表的MRAG推理过程中表现出一致的文本优先于视觉模态的偏见。CHARGE和Chart-MRAG Bench已在https://github.com/Nomothings/CHARGE.git上发布。

🔬 方法详解

问题定义:现有MRAG评估基准缺乏对复杂图表场景的覆盖,导致模型在处理真实文档中的图表问答时性能不佳。现有方法难以有效利用图表中的视觉信息进行推理,并且存在文本模态偏见。

核心思路:通过半自动化的数据生成框架CHARGE,构建高质量的图表问答数据集Chart-MRAG Bench,从而更全面地评估MRAG模型在图表理解和多模态推理方面的能力。CHARGE框架旨在克服人工标注成本高、覆盖范围有限的问题。

技术框架:CHARGE框架包含以下主要模块:1) 结构化关键点提取:从图表中提取关键点信息,例如坐标、数值等。2) 跨模态验证:验证提取的关键点信息与文本描述的一致性,确保数据质量。3) 基于关键点的生成:基于提取的关键点信息生成问题和答案,形成问答对。然后,结合专家验证,最终构建Chart-MRAG Bench。

关键创新:CHARGE框架的核心创新在于其半自动化的数据生成流程,能够高效地生成高质量的图表问答数据,从而克服了人工标注的局限性。此外,该框架强调了结构化关键点提取和跨模态验证,以确保生成数据的准确性和一致性。

关键设计:CHARGE框架的具体技术细节包括:关键点提取算法的选择(例如,使用OCR和目标检测技术),跨模态验证规则的制定(例如,使用自然语言推理模型),以及问题和答案生成策略的设计(例如,使用模板或生成模型)。此外,专家验证环节也至关重要,用于纠正自动生成过程中的错误,并确保数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有统一多模态嵌入检索方法在图表场景下表现不佳。即使使用ground-truth检索,最先进的MLLM也仅能达到58.19%的正确率和73.87%的覆盖率。此外,实验还揭示了MLLM在图表MRAG推理过程中存在明显的文本模态偏见,表明现有模型在有效利用视觉信息方面存在不足。

🎯 应用场景

该研究成果可应用于金融报告分析、市场调研报告解读、科学文献理解等领域,帮助用户从包含图表的文档中提取关键信息并进行推理。通过提升MRAG模型在图表理解方面的能力,可以提高信息检索和问答系统的准确性和效率,为决策提供更可靠的依据。

📄 摘要(原文)

Multimodal Retrieval-Augmented Generation (MRAG) enhances reasoning capabilities by integrating external knowledge. However, existing benchmarks primarily focus on simple image-text interactions, overlooking complex visual formats like charts that are prevalent in real-world applications. In this work, we introduce a novel task, Chart-based MRAG, to address this limitation. To semi-automatically generate high-quality evaluation samples, we propose CHARt-based document question-answering GEneration (CHARGE), a framework that produces evaluation data through structured keypoint extraction, crossmodal verification, and keypoint-based generation. By combining CHARGE with expert validation, we construct Chart-MRAG Bench, a comprehensive benchmark for chart-based MRAG evaluation, featuring 4,738 question-answering pairs across 8 domains from real-world documents. Our evaluation reveals three critical limitations in current approaches: (1) unified multimodal embedding retrieval methods struggles in chart-based scenarios, (2) even with ground-truth retrieval, state-of-the-art MLLMs achieve only 58.19% Correctness and 73.87% Coverage scores, and (3) MLLMs demonstrate consistent text-over-visual modality bias during Chart-based MRAG reasoning. The CHARGE and Chart-MRAG Bench are released at https://github.com/Nomothings/CHARGE.git.