DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark

作者: Ruofan Hu, Menghui Zhu, Jieming Zhu, Bo Chen, Shengyang Xu, Minjie Hong, Xiaoda Yang, Sashuai Zhou, Li Tang, Tao Jin, Zhou Zhao

分类: cs.CV, cs.IR

发布日期: 2026-05-28

备注: Accepted at KDD 2026 Research Track

DOI: 10.1145/3770855.3817680

💡 一句话要点

DocRetriever：一个即插即用的多模态文档检索框架，并构建了全面的基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态文档检索 布局感知 稀疏嵌入 少样本学习 重排序 文档理解 信息检索

📋 核心要点

现有方法依赖密集嵌入和监督重排序，忽略文档结构信息，且泛化能力受限。
DocRetriever利用布局感知的稀疏嵌入增强视觉检索，并设计可泛化的重排序器。
MultiDocR基准测试的实验结果表明，DocRetriever优于现有最佳方法。

📝 摘要（中文）

多模态文档包含表格、图表和布局等多种元素，这使得检索任务变得复杂。目前的方法通常结合密集视觉嵌入模型和监督重排序器来实现高精度检索，但面临固有的局限性。首先，密集嵌入的粗粒度特性倾向于模糊显式语义，无法利用结构上显著的信息。其次，监督重排序模型存在泛化瓶颈，因为它们的性能严重依赖于特定领域的训练数据。此外，现有的基准测试通常缺乏多样化的评估维度和全面的相关性标注，限制了可靠的评估。为了应对这些挑战，我们提出了DocRetriever，一个即插即用的框架。它通过布局感知的稀疏嵌入技术增强视觉检索，从而实现有效的混合编码，而无需光学字符识别（OCR）的开销。我们还引入了一个可泛化的重排序器，该重排序器利用推理增强的演示和优化的采样来提高少样本设置中的准确性。最后，我们构建了一个新的基准测试MultiDocR，以实现更严格的评估。在各种基准测试上的实验验证了DocRetriever优于最先进的方法。

🔬 方法详解

问题定义：论文旨在解决多模态文档检索中现有方法无法有效利用文档结构信息，且泛化能力不足的问题。现有方法依赖于密集视觉嵌入和监督重排序，前者忽略了文档布局等结构化信息，后者则严重依赖领域特定的训练数据，导致在新领域表现不佳。

核心思路：论文的核心思路是结合布局感知的稀疏嵌入和可泛化的重排序器，从而在不依赖大量领域数据的情况下，有效利用文档的结构信息，提升检索精度和泛化能力。布局感知的稀疏嵌入能够捕捉文档的结构化语义，而可泛化的重排序器则通过推理增强的演示和优化的采样，提高少样本学习的性能。

技术框架：DocRetriever框架主要包含两个核心模块：布局感知的稀疏嵌入模块和可泛化的重排序模块。首先，布局感知的稀疏嵌入模块将文档图像编码成稀疏向量，捕捉文档的结构化信息。然后，检索阶段利用这些稀疏向量进行初步检索，得到候选文档集合。最后，可泛化的重排序模块对候选文档进行重排序，提高检索精度。

关键创新：论文的关键创新在于提出了布局感知的稀疏嵌入方法和可泛化的重排序器。布局感知的稀疏嵌入方法能够有效捕捉文档的结构化信息，而无需进行OCR，降低了计算成本。可泛化的重排序器则通过推理增强的演示和优化的采样，提高了少样本学习的性能，使其能够适应新的领域。

关键设计：在布局感知的稀疏嵌入模块中，论文设计了一种特殊的稀疏编码方式，能够有效地捕捉文档的布局信息。在可泛化的重排序模块中，论文采用了推理增强的演示学习方法，并设计了一种优化的采样策略，从而提高了少样本学习的性能。具体的参数设置和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DocRetriever在多个基准测试上均优于现有最佳方法。例如，在MultiDocR基准测试上，DocRetriever的检索精度显著提升，证明了其有效性。此外，实验还验证了DocRetriever在少样本学习场景下的优越性能，表明其具有良好的泛化能力。

🎯 应用场景

DocRetriever可应用于企业知识库检索、学术论文检索、法律文档检索等领域。该研究的实际价值在于提高了多模态文档检索的精度和泛化能力，减少了对领域特定训练数据的依赖。未来，该技术有望应用于更广泛的文档理解和信息抽取任务中，例如自动文档摘要、文档分类等。

📄 摘要（原文）

Multimodal documents contain diverse elements, such as tables, figures, and layouts, which can complicate retrieval tasks. While current approaches typically combine dense visual embedding models with supervised rerankers to achieve high-precision retrieval, they face inherent limitations. First, the coarse-grained nature of dense embeddings tends to obfuscate explicit semantics, failing to leverage structurally salient information. Second, supervised reranking models suffer from generalization bottlenecks, as their performance heavily relies on domain-specific training data. Furthermore, existing benchmarks often lack diverse assessment dimensions and comprehensive relevance annotations, limiting reliable evaluation. To address these challenges, we propose DocRetriever, a plug-and-play framework. It enhances visual retrieval via a layout-aware sparse embedding technique, enabling effective hybrid encoding without the overhead of optical character recognition (OCR). We also introduce a generalizable reranker that leverages reasoning-augmented demonstrations and optimized sampling to improve accuracy in few-shot settings. Finally, we construct a new benchmark, MultiDocR, to enable more rigorous evaluation. Experiments across diverse benchmarks validate DocRetriever's superiority over state-of-the-art methods.

DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理