PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers
作者: Lei Xiong, Huaying Yuan, Zheng Liu, Zhao Cao, Zhicheng Dou
分类: cs.AI
发布日期: 2026-04-13
💡 一句话要点
提出PaperScope:一个用于评估Agentic深度研究的多模态多文档基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 多文档理解 科学推理 知识图谱 Agentic研究 基准数据集 长上下文检索
📋 核心要点
- 现有基准主要关注单文档理解,无法满足实际科研中整合多篇论文(包括文本、表格和图表)证据的需求。
- PaperScope构建了一个包含2000多篇AI论文的知识图谱,并设计了语义密集型证据构建方法,以确保任务的复杂性。
- PaperScope包含2000多个QA对,涵盖推理、检索、总结和问题解决,实验表明现有先进系统性能有限。
📝 摘要(中文)
本文提出了PaperScope,一个用于Agentic深度研究的多模态多文档基准。利用多模态大型语言模型(MLLM)加速前沿科学研究前景广阔,但如何严格评估此类系统仍不清楚。现有的基准主要集中在单文档理解上,而实际的科学工作流程需要整合来自多个论文的证据,包括文本、表格和图表。因此,多模态、多文档的科学推理仍未被充分探索,并且缺乏系统的评估。PaperScope具有三个优点:(1)结构化的科学基础。它建立在一个包含三年内2000多篇AI论文的知识图谱之上,为面向研究的查询提供了一个结构化的基础。(2)语义密集型证据构建。它整合了语义相关的关键信息节点,并采用优化的随机游走文章选择器来采样主题连贯的论文集,从而确保足够的语义密度和任务复杂性。(3)科学推理的多任务评估。它包含2000多个QA对,涵盖推理、检索、总结和问题解决,从而能够评估多步骤的科学推理。实验结果表明,即使是像OpenAI Deep Research和Tongyi Deep Research这样的先进系统在PaperScope上的得分也有限,突出了长上下文检索和深度多源推理的难度。PaperScope提供了一个严格的基准,以及一个用于构建大规模多模态、多源深度研究数据集的可扩展pipeline。
🔬 方法详解
问题定义:现有评估多模态大型语言模型(MLLM)在科学研究中的能力时,主要集中于单文档理解,无法模拟实际科研中需要整合多篇论文信息(包括文本、表格和图表)的场景。这导致多模态、多文档的科学推理能力缺乏系统性的评估,现有方法难以胜任。
核心思路:PaperScope的核心思路是构建一个多模态、多文档的基准数据集,该数据集基于一个包含大量AI论文的知识图谱,并设计了能够生成语义相关且复杂的证据链的方法。通过多任务的问答形式,全面评估模型在科学推理、检索、总结和问题解决等方面的能力。
技术框架:PaperScope的构建流程主要包含以下几个阶段:1) 构建AI论文的知识图谱;2) 设计语义密集型证据构建方法,包括关键信息节点整合和优化的随机游走文章选择器;3) 构建多任务的问答数据集,涵盖推理、检索、总结和问题解决等任务。
关键创新:PaperScope的关键创新在于其多模态、多文档的特性,以及语义密集型证据构建方法。与以往的单文档基准相比,PaperScope更贴近实际科研场景,能够更全面地评估模型在复杂科学推理中的能力。优化的随机游走文章选择器保证了论文集主题的连贯性,增加了任务的难度。
关键设计:PaperScope的知识图谱包含超过2000篇AI论文,时间跨度为三年。语义密集型证据构建方法通过整合语义相关的关键信息节点,并采用优化的随机游走文章选择器来采样主题连贯的论文集。问答数据集包含超过2000个QA对,涵盖推理、检索、总结和问题解决等多个任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是像OpenAI Deep Research和Tongyi Deep Research这样的先进系统在PaperScope上的得分也有限,这表明长上下文检索和深度多源推理仍然是当前模型的挑战。PaperScope为评估和改进这些能力提供了一个有力的工具。
🎯 应用场景
PaperScope可用于评估和提升多模态大型语言模型在科学研究领域的应用能力,例如辅助科研人员进行文献综述、发现研究趋势、解决科学问题等。该基准的构建pipeline也可用于构建其他领域的大规模多模态、多源深度研究数据集。
📄 摘要(原文)
Leveraging Multi-modal Large Language Models (MLLMs) to accelerate frontier scientific research is promising, yet how to rigorously evaluate such systems remains unclear. Existing benchmarks mainly focus on single-document understanding, whereas real scientific workflows require integrating evidence from multiple papers, including their text, tables, and figures. As a result, multi-modal, multi-document scientific reasoning remains underexplored and lacks systematic evaluation. To address this gap, we introduce PaperScope, a multi-modal multi-document benchmark designed for agentic deep research. PaperScope presents three advantages: (1) Structured scientific grounding. It is built on a knowledge graph of over 2,000 AI papers spanning three years, providing a structured foundation for research-oriented queries. (2) Semantically dense evidence construction. It integrates semantically related key information nodes and employs optimized random-walk article selector to sample thematically coherent paper sets, thereby ensuring adequate semantic density and task complexity. (3) Multi-task evaluation of scientific reasoning. It contains over 2,000 QA pairs across reasoning, retrieval, summarization, and problem solving, enabling evaluation of multi-step scientific reasoning. Experimental results show that even advanced systems such as OpenAI Deep Research and Tongyi Deep Research achieve limited scores on PaperScope, highlighting the difficulty of long-context retrieval and deep multi-source reasoning. PaperScope thus provides a rigorous benchmark alongside a scalable pipeline for constructing large-scale multi-modal, multi-source deep research datasets.