UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG
作者: Xiangyu Peng, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Chien-Sheng Wu
分类: cs.CL, cs.CV
发布日期: 2025-10-04 (更新: 2025-10-09)
💡 一句话要点
提出UniDoc-Bench,用于评估文档型多模态RAG系统的统一基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态RAG 文档理解 基准测试 大型语言模型 信息检索
📋 核心要点
- 现有MM-RAG评估缺乏统一性,无法有效评估文档型多模态场景,阻碍了LLM在实际知识库中的应用。
- UniDoc-Bench构建大规模真实文档数据集,并设计统一评估协议,支持多种模态和检索范式的公平比较。
- 实验表明,多模态文本-图像融合RAG优于单模态和联合多模态检索,揭示了现有方法在多模态理解方面的不足。
📝 摘要(中文)
多模态检索增强生成(MM-RAG)是将大型语言模型(LLM)和智能体应用于现实世界知识库的关键方法。然而,目前的评估是分散的,要么孤立地关注文本或图像,要么关注简化的多模态设置,无法捕捉以文档为中心的多模态用例。本文提出了UniDoc-Bench,这是第一个大规模、真实的MM-RAG基准,由来自八个领域的7万个真实PDF页面构建而成。我们的流程提取并链接来自文本、表格和图表的证据,然后生成1600个多模态问答对,涵盖事实检索、比较、总结和逻辑推理查询。为了确保可靠性,20%的问答对经过多位标注者和专家仲裁的验证。UniDoc-Bench支持四种范式的同类比较:(1)纯文本,(2)纯图像,(3)多模态文本-图像融合,以及(4)多模态联合检索——在统一的协议下,具有标准化的候选池、提示和评估指标。实验表明,多模态文本-图像融合RAG系统始终优于单模态和联合多模态基于嵌入的检索,表明单独的文本或图像都不足够,并且当前的多模态嵌入仍然不足。除了基准测试之外,我们的分析还揭示了视觉上下文何时以及如何补充文本证据,揭示了系统性的失败模式,并为开发更强大的MM-RAG流程提供了可操作的指导。
🔬 方法详解
问题定义:现有MM-RAG评估体系存在碎片化问题,缺乏一个统一、大规模、真实的基准来评估文档型多模态场景下的RAG系统。现有方法要么只关注文本或图像,要么采用简化的多模态设置,无法充分评估LLM在处理复杂文档时的能力。这使得不同MM-RAG系统的性能难以比较,也阻碍了该领域的发展。
核心思路:UniDoc-Bench的核心思路是构建一个大规模、真实的文档数据集,并设计一个统一的评估协议,以支持不同MM-RAG系统的公平比较。通过提取和链接文档中的文本、表格和图表等信息,并生成涵盖多种查询类型的多模态问答对,UniDoc-Bench能够全面评估MM-RAG系统在处理复杂文档时的能力。
技术框架:UniDoc-Bench的构建流程主要包括以下几个阶段:1) 数据收集:从八个领域收集7万个真实的PDF页面。2) 信息提取:从PDF页面中提取文本、表格和图表等信息,并建立它们之间的链接。3) 问答对生成:基于提取的信息,生成1600个多模态问答对,涵盖事实检索、比较、总结和逻辑推理等查询类型。4) 质量控制:20%的问答对经过多位标注者和专家仲裁的验证,以确保数据的质量。5) 评估协议:设计统一的评估协议,包括标准化的候选池、提示和评估指标,以支持不同MM-RAG系统的公平比较。
关键创新:UniDoc-Bench的关键创新在于:1) 它是第一个大规模、真实的文档型多模态RAG基准。2) 它提供了一个统一的评估协议,支持多种模态和检索范式的公平比较。3) 它揭示了现有MM-RAG系统在处理复杂文档时的不足,并为未来的研究提供了指导。
关键设计:UniDoc-Bench的关键设计包括:1) 数据集的规模和多样性:7万个PDF页面涵盖了八个不同的领域,确保了数据集的规模和多样性。2) 问答对的类型:1600个问答对涵盖了多种查询类型,能够全面评估MM-RAG系统的能力。3) 评估指标:采用标准化的评估指标,如准确率、召回率和F1值,以支持不同系统的公平比较。4) 候选池构建:构建标准化的候选池,确保所有系统都基于相同的候选文档进行检索。
📊 实验亮点
实验结果表明,多模态文本-图像融合RAG系统始终优于单模态(纯文本或纯图像)和联合多模态基于嵌入的检索方法。这表明单独的文本或图像信息不足以有效解决文档型多模态RAG问题,并且当前的多模态嵌入方法仍有待改进。具体性能数据未在摘要中给出。
🎯 应用场景
UniDoc-Bench可用于评估和改进各种文档型多模态RAG系统,例如智能文档助手、知识图谱构建、智能客服等。该基准能够推动LLM在处理复杂文档方面的能力,并促进其在金融、法律、医疗等领域的应用。未来,可以扩展UniDoc-Bench的数据集和评估指标,以更好地反映实际应用场景的需求。
📄 摘要(原文)
Multimodal retrieval-augmented generation (MM-RAG) is a key approach for applying large language models (LLMs) and agents to real-world knowledge bases, yet current evaluations are fragmented, focusing on either text or images in isolation or on simplified multimodal setups that fail to capture document-centric multimodal use cases. In this paper, we introduce UniDoc-Bench, the first large-scale, realistic benchmark for MM-RAG built from 70k real-world PDF pages across eight domains. Our pipeline extracts and links evidence from text, tables, and figures, then generates 1,600 multimodal QA pairs spanning factual retrieval, comparison, summarization, and logical reasoning queries. To ensure reliability, 20% of QA pairs are validated by multiple annotators and expert adjudication. UniDoc-Bench supports apples-to-apples comparison across four paradigms: (1) text-only, (2) image-only, (3) multimodal text-image fusion, and (4) multimodal joint retrieval -- under a unified protocol with standardized candidate pools, prompts, and evaluation metrics. Our experiments show that multimodal text-image fusion RAG systems consistently outperform both unimodal and jointly multimodal embedding-based retrieval, indicating that neither text nor images alone are sufficient and that current multimodal embeddings remain inadequate. Beyond benchmarking, our analysis reveals when and how visual context complements textual evidence, uncovers systematic failure modes, and offers actionable guidance for developing more robust MM-RAG pipelines.