BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

📄 arXiv: 2603.07931v1 📥 PDF

作者: Biao Xiang, Soyeon Caren Han, Yihao Ding

分类: cs.CL

发布日期: 2026-03-09


💡 一句话要点

提出BRIDGE基准,用于评估长多模态文档中多跳推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多跳推理 长文档理解 多模态融合 问答系统 基准数据集

📋 核心要点

  1. 现有基准测试在评估长多模态文档中的多跳推理能力时,往往只关注最终答案的正确性,忽略中间推理步骤。
  2. BRIDGE基准通过提供长篇科学论文,并要求模型整合文本、表格和图形中的证据进行多跳推理,来解决上述问题。
  3. 实验表明,现有LLM和多模态RAG系统在证据聚合和基础方面存在不足,BRIDGE可以有效诊断这些推理失败。

📝 摘要(中文)

多跳问答(QA)被广泛用于评估大型语言模型的推理能力,但大多数基准侧重于最终答案的正确性,而忽略了中间推理过程,尤其是在长多模态文档中。我们推出了BRIDGE,这是一个用于长篇科学论文多跳推理的基准,需要整合文本、表格和图形中的证据。该数据集支持链式和扇出结构,并提供显式的多跳推理标注,用于超越答案准确性的步骤级评估。与最先进的LLM和多模态检索增强生成(RAG)系统的实验表明,在证据聚合和基础方面存在系统性缺陷,这些缺陷在传统的仅答案评估下仍然隐藏。BRIDGE为诊断长多模态文档中的推理失败提供了一个有针对性的测试平台。

🔬 方法详解

问题定义:论文旨在解决现有问答基准在评估长多模态文档(如科学论文)中的多跳推理能力时存在的不足。现有方法主要关注最终答案的准确性,忽略了中间推理步骤的正确性,无法有效诊断模型的推理过程缺陷。此外,现有基准缺乏对多模态信息(文本、表格、图像)融合推理的有效评估。

核心思路:论文的核心思路是构建一个更具挑战性的多跳问答基准,该基准基于长篇科学论文,需要模型从文本、表格和图像中提取证据,并进行多步推理才能得到答案。通过提供显式的多跳推理标注,可以对模型的中间推理步骤进行评估,从而更全面地了解模型的推理能力。

技术框架:BRIDGE基准数据集包含长篇科学论文,每个问题需要从多个证据片段进行推理才能回答。数据集支持链式和扇出结构的多跳推理路径。数据集提供显式的多跳推理标注,包括每个推理步骤所需的证据片段。评估指标包括答案准确性和步骤级推理准确性。

关键创新:BRIDGE基准的关键创新在于:1) 关注长多模态文档中的多跳推理;2) 提供显式的多跳推理标注,支持步骤级评估;3) 包含链式和扇出结构的多跳推理路径。这些创新使得BRIDGE能够更全面地评估模型的推理能力,并诊断模型的推理缺陷。

关键设计:数据集构建过程中,问题设计需要确保答案依赖于多个证据片段,并且需要进行多步推理才能得到。多跳推理标注由人工标注员提供,确保标注的准确性和一致性。评估指标包括答案准确率和步骤级推理准确率,步骤级推理准确率通过比较模型预测的证据片段与人工标注的证据片段来计算。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有的LLM和多模态RAG系统在BRIDGE基准上表现不佳,尤其是在证据聚合和基础方面存在明显缺陷。这表明,即使模型在传统的答案准确率指标上表现良好,也可能在多跳推理过程中存在问题。BRIDGE基准能够有效揭示这些隐藏的推理缺陷。

🎯 应用场景

该研究成果可应用于提升大型语言模型在科学文档理解、信息抽取和问答等领域的性能。BRIDGE基准可以作为评估和改进多模态推理能力的有效工具,促进相关技术的发展,例如智能科研助手、自动化报告生成等。

📄 摘要(原文)

Multi-hop question answering (QA) is widely used to evaluate the reasoning capabilities of large language models, yet most benchmarks focus on final answer correctness and overlook intermediate reasoning, especially in long multimodal documents. We introduce BRIDGE, a benchmark for multi-hop reasoning over long scientific papers that require integrating evidence across text, tables, and figures. The dataset supports both chain-like and fan-out structures and provides explicit multi-hop reasoning annotations for step-level evaluation beyond answer accuracy. Experiments with state-of-the-art LLMs and multimodal retrieval-augmented generation (RAG) systems reveal systematic deficiencies in evidence aggregation and grounding that remain hidden under conventional answer-only evaluation. BRIDGE provides a targeted testbed for diagnosing reasoning failures in long multimodal documents.