Inference-Free Multimodal Learned Sparse Retrieval for Production-Scale Visual Document Search

作者: Gyu-Hwung Cho, Youngjune Lee, Kiyoon Jeong, Siyoung Lee, Sanggyu Han, Hervé Dejean, Stéphane Clinchant, Seung-won Hwang

分类: cs.IR, cs.CV

发布日期: 2026-05-29

备注: 12 pages, 5 figures, 12 tables, preprint

🔗 代码/项目: GITHUB

💡 一句话要点

提出V-SPLADE：一种免推理的多模态学习稀疏检索方法，用于大规模视觉文档搜索。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉文档检索 稀疏检索 多模态学习 免推理 词汇接地

📋 核心要点

现有视觉文档检索方法要么依赖耗时的文本提取，要么需要在推理时进行神经编码，限制了其在大规模场景下的应用。
V-SPLADE通过引入caption-gated token supervision，利用VLM生成的字幕作为词汇线索，提升视觉稀疏表示的词汇接地能力。
实验表明，V-SPLADE在多个基准测试中显著优于现有方法，并在大规模语料库上实现了更高的检索性能。

📝 摘要（中文）

随着arXiv论文和企业PDF等大规模视觉文档语料库的持续增长，视觉文档检索越来越受到关注。然而，目前仍然缺乏一种可部署的系统，该系统能够对视觉文档进行词汇索引，并在大规模情况下无需神经编码即可服务查询。现有方法虽然可以通过基于VLM的稠密或多向量模型实现强大的检索质量，但需要在服务时进行神经查询编码；或者通过基于OCR或字幕的BM25来避免查询编码，但代价是耗时的文本提取或生成。为了填补这一空白，我们提出了V-SPLADE，一种用于视觉文档检索的免推理稀疏检索器。然而，这种免推理的多模态学习稀疏检索系统仍未被充分探索，并且尚未在高稀疏性下表现出稠密级别的有效性。我们将此限制归因于词汇接地问题：视觉稀疏表示通常无法捕获嵌入在文档图像中的词汇内容。为了解决这个问题，我们引入了字幕门控token监督，这是一种仅在训练时使用的信号，它使用VLM生成的字幕作为词汇线索来激活检索相关的词汇维度。通过这种监督，V-SPLADE在六个视觉文档检索基准测试中，平均NDCG@5比相同规模的稠密基线提高了+13.8pp，比基于OCR或字幕的BM25基线提高了高达+6.3pp。在一个包含1870万个文档的语料库上，它比相同规模的稠密基线提高了两倍以上的R@5，并通过分数融合进一步改进了竞争检索器，提高了高达+2.4pp R@5。

🔬 方法详解

问题定义：论文旨在解决大规模视觉文档检索中，现有方法要么依赖耗时的文本提取或生成，要么需要在推理时进行神经编码的问题。这些问题限制了视觉文档检索系统在实际生产环境中的部署和应用。现有方法，如基于VLM的稠密模型，虽然检索质量高，但推理成本高昂；而基于OCR或字幕的BM25方法，虽然避免了推理时的神经编码，但文本提取或生成过程耗时。

核心思路：论文的核心思路是提出一种免推理的多模态学习稀疏检索器V-SPLADE，它通过学习稀疏表示，避免了推理时的神经编码，同时利用VLM生成的字幕作为词汇线索，提升视觉稀疏表示的词汇接地能力，从而提高检索性能。

技术框架：V-SPLADE的整体框架包括以下几个主要步骤：1) 使用视觉文档图像作为输入；2) 使用预训练的视觉语言模型（VLM）生成文档图像的字幕；3) 使用caption-gated token supervision训练稀疏检索器，该监督信号利用VLM生成的字幕作为词汇线索，激活检索相关的词汇维度；4) 在检索时，直接使用学习到的稀疏表示进行检索，无需神经编码。

关键创新：论文最重要的技术创新点是提出了caption-gated token supervision。该方法利用VLM生成的字幕作为词汇线索，指导稀疏检索器的训练，从而提升视觉稀疏表示的词汇接地能力。与现有方法相比，V-SPLADE无需在推理时进行神经编码，同时能够获得与稠密模型相媲美的检索性能。

关键设计：caption-gated token supervision的关键设计在于如何利用VLM生成的字幕来指导稀疏检索器的训练。具体来说，对于每个文档图像，首先使用VLM生成其对应的字幕。然后，将字幕中的token作为正样本，用于激活稀疏检索器中对应的词汇维度。通过这种方式，稀疏检索器能够学习到文档图像中包含的词汇信息，从而提升其检索性能。损失函数的设计需要考虑如何最大化正样本的激活，同时抑制负样本的激活。

🖼️ 关键图片

📊 实验亮点

V-SPLADE在六个视觉文档检索基准测试中，平均NDCG@5比相同规模的稠密基线提高了+13.8pp，比基于OCR或字幕的BM25基线提高了高达+6.3pp。在一个包含1870万个文档的语料库上，它比相同规模的稠密基线提高了两倍以上的R@5，并通过分数融合进一步改进了竞争检索器，提高了高达+2.4pp R@5。这些实验结果表明，V-SPLADE能够显著提升视觉文档检索的性能。

🎯 应用场景

V-SPLADE可应用于大规模视觉文档检索，例如arXiv论文搜索、企业PDF文档管理、专利文档检索等。该方法能够实现高效、准确的视觉文档检索，提高信息检索效率，降低检索成本，具有广泛的应用前景和实际价值。未来，可以进一步研究如何将V-SPLADE应用于更复杂的视觉文档检索场景，例如包含表格、公式等复杂结构的文档。

📄 摘要（原文）

As large-scale visual-document corpora such as arXiv papers and enterprise PDFs continue to grow, visual-document retrieval has gained increasing attention; yet it still lacks a deployable system that lexically indexes visual documents to serve queries without neural encoding at scale. Existing methods either achieve strong retrieval quality with VLM-based dense or multi-vector models but require neural query encoding at serving time, or avoid query encoding with OCR- or caption-based BM25 at the cost of time-consuming text extraction or generation. To fill this missing serving regime, we present V-SPLADE, an inference-free sparse retriever for visual-document retrieval. However, such inference-free multimodal learned sparse retrieval systems remain underexplored and have not yet shown dense-level effectiveness under high sparsity. We attribute this limitation to a lexical grounding problem: visual sparse representations often fail to capture the lexical content embedded in document images. To address this problem, we introduce caption-gated token supervision, a training-only signal that uses VLM-generated captions as lexical cues to activate retrieval-relevant vocabulary dimensions. With this supervision, V-SPLADE improves average NDCG@5 across six visual-document retrieval benchmarks by +13.8pp over the same-scale dense baseline and by up to +6.3pp over OCR- or caption-based BM25 baselines. On an 18.7M-document corpus, it more than doubles R@5 over the same-scale dense baseline and further improves competing retrievers through score fusion by up to +2.4pp R@5. Code will be released soon at https://github.com/naver/v-splade.

Inference-Free Multimodal Learned Sparse Retrieval for Production-Scale Visual Document Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理