DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

📄 arXiv: 2604.12812v1 📥 PDF

作者: Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai

分类: cs.AI

发布日期: 2026-04-14

备注: CVPR 2026 Highlight


💡 一句话要点

DocSeeker:提出一种基于证据 grounding 的结构化视觉推理方法,用于长文档理解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文档理解 多模态学习 视觉推理 证据 grounding 知识蒸馏

📋 核心要点

  1. 现有MLLM在长文档理解中面临信噪比低和监督信息不足的挑战,导致性能下降。
  2. DocSeeker通过结构化的分析、定位和推理流程,以及两阶段训练框架来解决这些问题。
  3. 实验表明,DocSeeker在长文档理解任务上表现出色,并能有效泛化到不同领域。

📝 摘要(中文)

现有的多模态大型语言模型(MLLMs)在长文档理解任务中,随着文档长度的增加,性能显著下降。这源于两个根本挑战:1)低信噪比(SNR),关键证据埋藏在不相关的页面中;2)监督稀缺,因为数据集仅提供最终的简短答案,提供的学习信号较弱。本文提出了一种范式,要求模型执行结构化的“分析、定位和推理”工作流程,以应对这些挑战。为了灌输这种能力,我们设计了一个两阶段训练框架:首先,我们通过高效的知识蒸馏策略生成高质量数据,并在此数据上进行监督微调。随后,我们采用证据感知的分组相对策略优化,共同优化证据定位和答案准确性。此外,我们引入了一种证据引导的分辨率分配策略,以缓解在多页文档上训练的内存限制。大量实验表明,DocSeeker 在领域内和领域外任务上均取得了优异的性能。我们证明了它可以从短页面训练稳健地泛化到超长文档,并且自然地与视觉检索增强生成系统协同工作,为它们的实现奠定了坚实的基础。

🔬 方法详解

问题定义:现有的大型多模态模型在处理长文档理解任务时,性能会显著下降。主要原因是长文档中关键信息往往淹没在大量无关信息中,导致信噪比低。此外,现有的数据集通常只提供最终答案,缺乏对中间推理过程的监督,导致模型难以学习到有效的推理策略。

核心思路:DocSeeker的核心思路是将长文档理解任务分解为三个结构化的步骤:分析(Analysis)、定位(Localization)和推理(Reasoning)。模型首先分析文档内容,然后定位与问题相关的证据,最后基于这些证据进行推理并生成答案。这种结构化的流程有助于模型聚焦关键信息,提高推理效率和准确性。

技术框架:DocSeeker采用一个两阶段的训练框架。第一阶段是监督微调(Supervised Fine-Tuning),利用通过知识蒸馏生成的高质量数据,训练模型学习结构化的分析、定位和推理流程。第二阶段是证据感知的分组相对策略优化(Evidence-aware Group Relative Policy Optimization),该阶段同时优化证据定位和答案准确性,鼓励模型学习更有效的证据选择策略。此外,还引入了证据引导的分辨率分配策略(Evidence-Guided Resolution Allocation),以缓解训练过程中多页文档带来的内存限制。

关键创新:DocSeeker的关键创新在于其结构化的推理流程和证据感知的训练方法。与传统的端到端模型相比,DocSeeker能够更好地利用文档中的关键信息,并学习到更有效的推理策略。证据感知的训练方法能够引导模型关注与问题相关的证据,提高答案的准确性。

关键设计:在监督微调阶段,使用知识蒸馏生成高质量的训练数据,具体方法未知。在证据感知的分组相对策略优化阶段,设计了特定的奖励函数来鼓励模型定位正确的证据并生成准确的答案。证据引导的分辨率分配策略的具体实现方式未知,但其目的是在有限的内存资源下,为包含关键证据的页面分配更高的分辨率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DocSeeker在领域内和领域外任务上均取得了优异的性能,证明了其在长文档理解方面的有效性。该模型能够从短页面训练稳健地泛化到超长文档,并且可以与视觉检索增强生成系统协同工作,进一步提升性能。具体的性能数据和对比基线在论文中给出,这里不再赘述。

🎯 应用场景

DocSeeker在处理需要理解长文档的场景中具有广泛的应用前景,例如法律文档分析、金融报告解读、科学文献检索等。它可以帮助用户快速定位关键信息,提高工作效率,并为视觉检索增强生成系统提供坚实的基础。

📄 摘要(原文)

Existing Multimodal Large Language Models (MLLMs) suffer from significant performance degradation on the long document understanding task as document length increases. This stems from two fundamental challenges: 1) a low Signal-to-Noise Ratio (SNR), with crucial evidence buried in irrelevant pages; and 2) supervision scarcity, as datasets offering only final short answers provide a weak learning signal. In this paper, we address these challenges by proposing a paradigm that requires the model to execute a structured ``\textbf{Analysis}, \textbf{Localization} and \textbf{Reasoning}'' workflow. To instill this capability, we design a two-stage training framework: we first perform Supervised Fine-Tuning on high-quality data generated via an efficient knowledge distillation strategy. Subsequently, we employ an Evidence-aware Group Relative Policy Optimization which jointly optimizes for both evidence localization and answer accuracy. Additionally, we introduce a Evidence-Guided Resolution Allocation strategy to mitigate memory constraints of training on multi-pages documents. Extensive experiments demonstrate that DocSeeker achieves superior performance on both in-domain and out-of-domain tasks. We show it robustly generalizes from short-page training to ultra-long documents and is naturally synergistic with visual Retrieval-Augmented Generation systems, serving as a solid foundation for their implementation.