Inference-Free Multimodal Learned Sparse Retrieval for Production-Scale Visual Document Search
作者: Gyu-Hwung Cho, Youngjune Lee, Kiyoon Jeong, Siyoung Lee, Sanggyu Han, Hervé Dejean, Stéphane Clinchant, Seung-won Hwang
分类: cs.IR, cs.CV
发布日期: 2026-05-29
备注: 12 pages, 5 figures, 12 tables, preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出V-SPLADE:一种免推理的多模态学习稀疏检索方法,用于大规模视觉文档搜索。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉文档检索 稀疏检索 多模态学习 免推理 词汇接地
📋 核心要点
- 现有视觉文档检索方法要么依赖耗时的文本提取,要么需要在推理时进行神经编码,限制了其在大规模场景下的应用。
- V-SPLADE通过引入caption-gated token supervision,利用VLM生成的字幕作为词汇线索,提升视觉稀疏表示的词汇接地能力。
- 实验表明,V-SPLADE在多个基准测试中显著优于现有方法,并在大规模语料库上实现了更高的检索性能。
📝 摘要(中文)
随着arXiv论文和企业PDF等大规模视觉文档语料库的持续增长,视觉文档检索越来越受到关注。然而,目前仍然缺乏一种可部署的系统,该系统能够对视觉文档进行词汇索引,并在大规模情况下无需神经编码即可服务查询。现有方法虽然可以通过基于VLM的稠密或多向量模型实现强大的检索质量,但需要在服务时进行神经查询编码;或者通过基于OCR或字幕的BM25来避免查询编码,但代价是耗时的文本提取或生成。为了填补这一空白,我们提出了V-SPLADE,一种用于视觉文档检索的免推理稀疏检索器。然而,这种免推理的多模态学习稀疏检索系统仍未被充分探索,并且尚未在高稀疏性下表现出稠密级别的有效性。我们将此限制归因于词汇接地问题:视觉稀疏表示通常无法捕获嵌入在文档图像中的词汇内容。为了解决这个问题,我们引入了字幕门控token监督,这是一种仅在训练时使用的信号,它使用VLM生成的字幕作为词汇线索来激活检索相关的词汇维度。通过这种监督,V-SPLADE在六个视觉文档检索基准测试中,平均NDCG@5比相同规模的稠密基线提高了+13.8pp,比基于OCR或字幕的BM25基线提高了高达+6.3pp。在一个包含1870万个文档的语料库上,它比相同规模的稠密基线提高了两倍以上的R@5,并通过分数融合进一步改进了竞争检索器,提高了高达+2.4pp R@5。
🔬 方法详解
问题定义:论文旨在解决大规模视觉文档检索中,现有方法要么依赖耗时的文本提取或生成,要么需要在推理时进行神经编码的问题。这些问题限制了视觉文档检索系统在实际生产环境中的部署和应用。现有方法,如基于VLM的稠密模型,虽然检索质量高,但推理成本高昂;而基于OCR或字幕的BM25方法,虽然避免了推理时的神经编码,但文本提取或生成过程耗时。
核心思路:论文的核心思路是提出一种免推理的多模态学习稀疏检索器V-SPLADE,它通过学习稀疏表示,避免了推理时的神经编码,同时利用VLM生成的字幕作为词汇线索,提升视觉稀疏表示的词汇接地能力,从而提高检索性能。
技术框架:V-SPLADE的整体框架包括以下几个主要步骤:1) 使用视觉文档图像作为输入;2) 使用预训练的视觉语言模型(VLM)生成文档图像的字幕;3) 使用caption-gated token supervision训练稀疏检索器,该监督信号利用VLM生成的字幕作为词汇线索,激活检索相关的词汇维度;4) 在检索时,直接使用学习到的稀疏表示进行检索,无需神经编码。
关键创新:论文最重要的技术创新点是提出了caption-gated token supervision。该方法利用VLM生成的字幕作为词汇线索,指导稀疏检索器的训练,从而提升视觉稀疏表示的词汇接地能力。与现有方法相比,V-SPLADE无需在推理时进行神经编码,同时能够获得与稠密模型相媲美的检索性能。
关键设计:caption-gated token supervision的关键设计在于如何利用VLM生成的字幕来指导稀疏检索器的训练。具体来说,对于每个文档图像,首先使用VLM生成其对应的字幕。然后,将字幕中的token作为正样本,用于激活稀疏检索器中对应的词汇维度。通过这种方式,稀疏检索器能够学习到文档图像中包含的词汇信息,从而提升其检索性能。损失函数的设计需要考虑如何最大化正样本的激活,同时抑制负样本的激活。
🖼️ 关键图片
📊 实验亮点
V-SPLADE在六个视觉文档检索基准测试中,平均NDCG@5比相同规模的稠密基线提高了+13.8pp,比基于OCR或字幕的BM25基线提高了高达+6.3pp。在一个包含1870万个文档的语料库上,它比相同规模的稠密基线提高了两倍以上的R@5,并通过分数融合进一步改进了竞争检索器,提高了高达+2.4pp R@5。这些实验结果表明,V-SPLADE能够显著提升视觉文档检索的性能。
🎯 应用场景
V-SPLADE可应用于大规模视觉文档检索,例如arXiv论文搜索、企业PDF文档管理、专利文档检索等。该方法能够实现高效、准确的视觉文档检索,提高信息检索效率,降低检索成本,具有广泛的应用前景和实际价值。未来,可以进一步研究如何将V-SPLADE应用于更复杂的视觉文档检索场景,例如包含表格、公式等复杂结构的文档。
📄 摘要(原文)
As large-scale visual-document corpora such as arXiv papers and enterprise PDFs continue to grow, visual-document retrieval has gained increasing attention; yet it still lacks a deployable system that lexically indexes visual documents to serve queries without neural encoding at scale. Existing methods either achieve strong retrieval quality with VLM-based dense or multi-vector models but require neural query encoding at serving time, or avoid query encoding with OCR- or caption-based BM25 at the cost of time-consuming text extraction or generation. To fill this missing serving regime, we present V-SPLADE, an inference-free sparse retriever for visual-document retrieval. However, such inference-free multimodal learned sparse retrieval systems remain underexplored and have not yet shown dense-level effectiveness under high sparsity. We attribute this limitation to a lexical grounding problem: visual sparse representations often fail to capture the lexical content embedded in document images. To address this problem, we introduce caption-gated token supervision, a training-only signal that uses VLM-generated captions as lexical cues to activate retrieval-relevant vocabulary dimensions. With this supervision, V-SPLADE improves average NDCG@5 across six visual-document retrieval benchmarks by +13.8pp over the same-scale dense baseline and by up to +6.3pp over OCR- or caption-based BM25 baselines. On an 18.7M-document corpus, it more than doubles R@5 over the same-scale dense baseline and further improves competing retrievers through score fusion by up to +2.4pp R@5. Code will be released soon at https://github.com/naver/v-splade.