MINER: Mining Multimodal Internal Representation for Efficient Retrieval

📄 arXiv: 2605.06460v1 📥 PDF

作者: Weien Li, Rui Song, Zeyu Li, Haochen Liu, Gonghao Zhang, Difan Jiao, Zhenwei Tang, Bowei He, Haolun Wu, Xue Liu, Ye Yuan

分类: cs.LG

发布日期: 2026-05-07

备注: Preprint


💡 一句话要点

提出MINER,挖掘多模态内部表征,实现高效视觉文档检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉文档检索 多模态学习 Transformer 内部表征 信息融合

📋 核心要点

  1. 现有视觉文档检索方法要么质量高但存储开销大,要么存储开销小但检索质量差,难以兼顾效率与精度。
  2. MINER通过探测和融合Transformer内部层的检索相关信号,生成紧凑的嵌入向量,从而在不牺牲效率的前提下提升检索质量。
  3. 实验表明,MINER在多个视觉文档检索数据集上优于现有密集单向量检索器,并在某些情况下接近晚期交互检索器的性能。

📝 摘要(中文)

视觉文档检索对于访问富视觉文档中的信息至关重要。现有方法分为两类:晚期交互检索器通过细粒度的token级别匹配实现高质量,但每页存储数百个向量,导致索引占用空间大和服务成本高。相比之下,密集单向量检索器在存储和延迟方面具有优势,但由于将所有信息压缩到单个最终层嵌入中,因此在质量上始终落后。本文首先对单向量检索器进行分层诊断,揭示检索相关信号存在于内部表征中。受此启发,我们提出了MINER(Mining Multimodal Internal RepreseNtation for Efficient Retrieval),这是一个轻量级插件模块,用于探测和融合Transformer层中的内部信号,形成单个紧凑的嵌入,而无需修改骨干网络或牺牲单向量效率。第一个检索对齐层探测阶段在每一层附加一个轻量级探针,揭示哪些维度携带检索相关信息。随后的自适应稀疏多层融合阶段将性能自适应的神经元级别掩码应用于所选层,并将剩余信号融合到最终密集向量中。在ViDoRe V1/V2/V3上,MINER在大多数基准测试中优于现有的密集单向量检索器,与其对应的骨干网络相比,nDCG@5最多提高了4.5%。与强大的晚期交互基线相比,在某些设置中,MINER在保持密集检索的存储和服务优势的同时,显著缩小了nDCG@5差距至0.2。

🔬 方法详解

问题定义:论文旨在解决视觉文档检索中,现有密集单向量检索器质量不高的问题。现有方法将所有信息压缩到单个最终层嵌入中,损失了中间层的有用信息,导致检索性能受限。同时,晚期交互检索器虽然精度高,但存储和计算成本过高,难以实际应用。

核心思路:论文的核心思路是挖掘Transformer内部层的表征,提取其中与检索任务相关的信号,并将其融合到单个紧凑的嵌入向量中。通过这种方式,既可以保留中间层的有用信息,提升检索质量,又可以保持单向量检索器的效率优势。

技术框架:MINER是一个轻量级的插件模块,可以添加到现有的Transformer骨干网络中。其主要包含两个阶段:检索对齐层探测(Retrieval-Aligned Layer Probing)和自适应稀疏多层融合(Adaptive Sparse Multi-Layer Fusion)。在检索对齐层探测阶段,为每一层添加一个轻量级探针,用于评估该层中哪些维度包含与检索任务相关的信息。在自适应稀疏多层融合阶段,根据探测结果,选择包含重要信息的层,并应用神经元级别的掩码,去除冗余信息,最后将剩余信号融合到最终的嵌入向量中。

关键创新:MINER的关键创新在于其能够有效地挖掘和利用Transformer内部层的表征信息。与传统的单向量检索器相比,MINER能够保留更多的检索相关信息,从而提升检索质量。同时,MINER采用轻量级的探针和自适应稀疏融合策略,保证了效率。

关键设计:检索对齐层探测阶段使用一个简单的线性层作为探针,将每一层的输出映射到一个标量值,该值表示该层与检索任务的相关性。自适应稀疏多层融合阶段使用L1正则化来训练神经元级别的掩码,从而实现对冗余信息的去除。最终的嵌入向量通过加权平均的方式融合来自不同层的信号,权重由检索对齐层探测阶段的输出决定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MINER在ViDoRe V1/V2/V3数据集上取得了显著的性能提升。与现有密集单向量检索器相比,MINER在nDCG@5指标上最多提升了4.5%。与强大的晚期交互基线相比,MINER在某些设置中将nDCG@5差距缩小到0.2,同时保持了存储和服务优势。

🎯 应用场景

MINER可应用于各种视觉文档检索场景,例如:文档图像搜索、信息抽取、智能问答等。该方法能够提升检索效率和准确率,帮助用户快速找到所需信息。未来,MINER还可以扩展到其他多模态检索任务中,例如:图文检索、视频检索等。

📄 摘要(原文)

Visual document retrieval has become essential for accessing information in visually rich documents. Existing approaches fall into two camps. Late-interaction retrievers achieve strong quality through fine-grained token-level matching but store hundreds of vectors per page, incurring large index footprints and high serving costs. By contrast, dense single-vector retrievers retain storage and latency advantages but consistently lag in quality because they compress all information into a single final-layer embedding. In this work, we first conduct a layerwise diagnostic on single-vector retrievers, revealing that retrieval-relevant signal resides in internal representations. Motivated by these findings, we propose MINER (Mining Multimodal Internal RepreseNtation for Efficient Retrieval), a lightweight plug-in module that probes and fuses internal signals across transformer layers into a single compact embedding without modifying the backbone or sacrificing single-vector efficiency. The first Retrieval-Aligned Layer Probing stage attaches a lightweight probe at each layer, surfacing which dimensions carry retrieval-relevant information. The subsequent Adaptive Sparse Multi-Layer Fusion stage applies performance-adaptive neuron-level masking to the selected layers and fuses the surviving signals into the final dense vector. Across ViDoRe V1/V2/V3, MINER outperforms existing dense single-vector retrievers on the majority of benchmarks, with up to 4.5% nDCG@5 improvement over its corresponding backbone. Compared to strong late-interaction baselines, in some settings MINER substantially narrows the nDCG@$5$ gap to $0.2$ while preserving the storage and serving advantages of dense retrieval.