PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

作者: Lei Xiong, Huaying Yuan, Zheng Liu, Zhao Cao, Zhicheng Dou

分类: cs.AI

发布日期: 2026-04-13

💡 一句话要点

提出PaperScope：一个用于评估Agentic深度研究的多模态多文档基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多文档理解 科学推理 知识图谱 Agentic研究 基准数据集 长上下文检索

📋 核心要点

现有基准主要关注单文档理解，无法满足实际科研中整合多篇论文（包括文本、表格和图表）证据的需求。
PaperScope构建了一个包含2000多篇AI论文的知识图谱，并设计了语义密集型证据构建方法，以确保任务的复杂性。
PaperScope包含2000多个QA对，涵盖推理、检索、总结和问题解决，实验表明现有先进系统性能有限。

📝 摘要（中文）

本文提出了PaperScope，一个用于Agentic深度研究的多模态多文档基准。利用多模态大型语言模型(MLLM)加速前沿科学研究前景广阔，但如何严格评估此类系统仍不清楚。现有的基准主要集中在单文档理解上，而实际的科学工作流程需要整合来自多个论文的证据，包括文本、表格和图表。因此，多模态、多文档的科学推理仍未被充分探索，并且缺乏系统的评估。PaperScope具有三个优点：(1)结构化的科学基础。它建立在一个包含三年内2000多篇AI论文的知识图谱之上，为面向研究的查询提供了一个结构化的基础。(2)语义密集型证据构建。它整合了语义相关的关键信息节点，并采用优化的随机游走文章选择器来采样主题连贯的论文集，从而确保足够的语义密度和任务复杂性。(3)科学推理的多任务评估。它包含2000多个QA对，涵盖推理、检索、总结和问题解决，从而能够评估多步骤的科学推理。实验结果表明，即使是像OpenAI Deep Research和Tongyi Deep Research这样的先进系统在PaperScope上的得分也有限，突出了长上下文检索和深度多源推理的难度。PaperScope提供了一个严格的基准，以及一个用于构建大规模多模态、多源深度研究数据集的可扩展pipeline。

🔬 方法详解

问题定义：现有评估多模态大型语言模型（MLLM）在科学研究中的能力时，主要集中于单文档理解，无法模拟实际科研中需要整合多篇论文信息（包括文本、表格和图表）的场景。这导致多模态、多文档的科学推理能力缺乏系统性的评估，现有方法难以胜任。

核心思路：PaperScope的核心思路是构建一个多模态、多文档的基准数据集，该数据集基于一个包含大量AI论文的知识图谱，并设计了能够生成语义相关且复杂的证据链的方法。通过多任务的问答形式，全面评估模型在科学推理、检索、总结和问题解决等方面的能力。

技术框架：PaperScope的构建流程主要包含以下几个阶段：1) 构建AI论文的知识图谱；2) 设计语义密集型证据构建方法，包括关键信息节点整合和优化的随机游走文章选择器；3) 构建多任务的问答数据集，涵盖推理、检索、总结和问题解决等任务。

关键创新：PaperScope的关键创新在于其多模态、多文档的特性，以及语义密集型证据构建方法。与以往的单文档基准相比，PaperScope更贴近实际科研场景，能够更全面地评估模型在复杂科学推理中的能力。优化的随机游走文章选择器保证了论文集主题的连贯性，增加了任务的难度。

关键设计：PaperScope的知识图谱包含超过2000篇AI论文，时间跨度为三年。语义密集型证据构建方法通过整合语义相关的关键信息节点，并采用优化的随机游走文章选择器来采样主题连贯的论文集。问答数据集包含超过2000个QA对，涵盖推理、检索、总结和问题解决等多个任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是像OpenAI Deep Research和Tongyi Deep Research这样的先进系统在PaperScope上的得分也有限，这表明长上下文检索和深度多源推理仍然是当前模型的挑战。PaperScope为评估和改进这些能力提供了一个有力的工具。

🎯 应用场景

PaperScope可用于评估和提升多模态大型语言模型在科学研究领域的应用能力，例如辅助科研人员进行文献综述、发现研究趋势、解决科学问题等。该基准的构建pipeline也可用于构建其他领域的大规模多模态、多源深度研究数据集。

📄 摘要（原文）

Leveraging Multi-modal Large Language Models (MLLMs) to accelerate frontier scientific research is promising, yet how to rigorously evaluate such systems remains unclear. Existing benchmarks mainly focus on single-document understanding, whereas real scientific workflows require integrating evidence from multiple papers, including their text, tables, and figures. As a result, multi-modal, multi-document scientific reasoning remains underexplored and lacks systematic evaluation. To address this gap, we introduce PaperScope, a multi-modal multi-document benchmark designed for agentic deep research. PaperScope presents three advantages: (1) Structured scientific grounding. It is built on a knowledge graph of over 2,000 AI papers spanning three years, providing a structured foundation for research-oriented queries. (2) Semantically dense evidence construction. It integrates semantically related key information nodes and employs optimized random-walk article selector to sample thematically coherent paper sets, thereby ensuring adequate semantic density and task complexity. (3) Multi-task evaluation of scientific reasoning. It contains over 2,000 QA pairs across reasoning, retrieval, summarization, and problem solving, enabling evaluation of multi-step scientific reasoning. Experimental results show that even advanced systems such as OpenAI Deep Research and Tongyi Deep Research achieve limited scores on PaperScope, highlighting the difficulty of long-context retrieval and deep multi-source reasoning. PaperScope thus provides a rigorous benchmark alongside a scalable pipeline for constructing large-scale multi-modal, multi-source deep research datasets.

PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理