Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

作者: Yuming Yang, Jiang Zhong, Li Jin, Jingwang Huang, Jingpeng Gao, Qing Liu, Yang Bai, Jingyuan Zhang, Rui Jiang, Kaiwen Wei

分类: cs.AI, cs.CV

发布日期: 2025-02-20

🔗 代码/项目: GITHUB

💡 一句话要点

提出CHARGE框架与Chart-MRAG Bench，用于评估图表场景下的多模态RAG

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索增强生成 图表理解 文档问答 基准测试 跨模态推理

📋 核心要点

现有MRAG基准测试侧重于简单的图像-文本交互，忽略了现实场景中常见的复杂图表，限制了模型在实际应用中的评估。
提出CHARGE框架，通过结构化关键点提取、跨模态验证和关键点生成，半自动地生成高质量的图表问答评估数据。
构建了Chart-MRAG Bench，包含4,738个问答对，覆盖8个领域，揭示了现有方法在图表理解和多模态推理方面的不足。

📝 摘要（中文）

多模态检索增强生成(MRAG)通过整合外部知识来增强推理能力。然而，现有的基准测试主要集中在简单的图像-文本交互上，忽略了现实应用中普遍存在的复杂视觉格式，如图表。本文引入了一项新的任务，即基于图表的MRAG，以解决这一局限性。为了半自动地生成高质量的评估样本，我们提出了基于图表的文档问答生成(CHARGE)框架，该框架通过结构化的关键点提取、跨模态验证和基于关键点的生成来产生评估数据。通过将CHARGE与专家验证相结合，我们构建了Chart-MRAG Bench，这是一个全面的基于图表的MRAG评估基准，包含来自真实文档的8个领域的4,738个问答对。我们的评估揭示了当前方法的三个关键局限性：(1)统一的多模态嵌入检索方法在基于图表的场景中表现不佳，(2)即使使用ground-truth检索，最先进的MLLM也只能达到58.19%的正确率和73.87%的覆盖率，以及(3)MLLM在基于图表的MRAG推理过程中表现出一致的文本优先于视觉模态的偏见。CHARGE和Chart-MRAG Bench已在https://github.com/Nomothings/CHARGE.git上发布。

🔬 方法详解

问题定义：现有MRAG评估基准缺乏对复杂图表场景的覆盖，导致模型在处理真实文档中的图表问答时性能不佳。现有方法难以有效利用图表中的视觉信息进行推理，并且存在文本模态偏见。

核心思路：通过半自动化的数据生成框架CHARGE，构建高质量的图表问答数据集Chart-MRAG Bench，从而更全面地评估MRAG模型在图表理解和多模态推理方面的能力。CHARGE框架旨在克服人工标注成本高、覆盖范围有限的问题。

技术框架：CHARGE框架包含以下主要模块：1) 结构化关键点提取：从图表中提取关键点信息，例如坐标、数值等。2) 跨模态验证：验证提取的关键点信息与文本描述的一致性，确保数据质量。3) 基于关键点的生成：基于提取的关键点信息生成问题和答案，形成问答对。然后，结合专家验证，最终构建Chart-MRAG Bench。

关键创新：CHARGE框架的核心创新在于其半自动化的数据生成流程，能够高效地生成高质量的图表问答数据，从而克服了人工标注的局限性。此外，该框架强调了结构化关键点提取和跨模态验证，以确保生成数据的准确性和一致性。

关键设计：CHARGE框架的具体技术细节包括：关键点提取算法的选择（例如，使用OCR和目标检测技术），跨模态验证规则的制定（例如，使用自然语言推理模型），以及问题和答案生成策略的设计（例如，使用模板或生成模型）。此外，专家验证环节也至关重要，用于纠正自动生成过程中的错误，并确保数据的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有统一多模态嵌入检索方法在图表场景下表现不佳。即使使用ground-truth检索，最先进的MLLM也仅能达到58.19%的正确率和73.87%的覆盖率。此外，实验还揭示了MLLM在图表MRAG推理过程中存在明显的文本模态偏见，表明现有模型在有效利用视觉信息方面存在不足。

🎯 应用场景

该研究成果可应用于金融报告分析、市场调研报告解读、科学文献理解等领域，帮助用户从包含图表的文档中提取关键信息并进行推理。通过提升MRAG模型在图表理解方面的能力，可以提高信息检索和问答系统的准确性和效率，为决策提供更可靠的依据。

📄 摘要（原文）

Multimodal Retrieval-Augmented Generation (MRAG) enhances reasoning capabilities by integrating external knowledge. However, existing benchmarks primarily focus on simple image-text interactions, overlooking complex visual formats like charts that are prevalent in real-world applications. In this work, we introduce a novel task, Chart-based MRAG, to address this limitation. To semi-automatically generate high-quality evaluation samples, we propose CHARt-based document question-answering GEneration (CHARGE), a framework that produces evaluation data through structured keypoint extraction, crossmodal verification, and keypoint-based generation. By combining CHARGE with expert validation, we construct Chart-MRAG Bench, a comprehensive benchmark for chart-based MRAG evaluation, featuring 4,738 question-answering pairs across 8 domains from real-world documents. Our evaluation reveals three critical limitations in current approaches: (1) unified multimodal embedding retrieval methods struggles in chart-based scenarios, (2) even with ground-truth retrieval, state-of-the-art MLLMs achieve only 58.19% Correctness and 73.87% Coverage scores, and (3) MLLMs demonstrate consistent text-over-visual modality bias during Chart-based MRAG reasoning. The CHARGE and Chart-MRAG Bench are released at https://github.com/Nomothings/CHARGE.git.

Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理