Very Efficient Listwise Multimodal Reranking for Long Documents

📄 arXiv: 2605.11864v1 📥 PDF

作者: Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh

分类: cs.IR, cs.AI, cs.CV, cs.MM

发布日期: 2026-05-12

备注: To appear in ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

ZipRerank:高效列表式多模态重排序,加速长文档检索与生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态重排序 长文档检索 视觉语言模型 效率优化 教师蒸馏 列表式学习 早期交互

📋 核心要点

  1. 现有基于VLM的重排序器在长文档多模态检索中计算成本高昂,主要瓶颈在于长视觉token序列和多步自回归解码。
  2. ZipRerank通过查询-图像早期交互减少输入长度,并采用单次前向传播评分消除自回归解码,显著提升效率。
  3. ZipRerank采用两阶段训练策略,先在文本图像数据上预训练,再用VLM教师蒸馏进行多模态微调,保证模型性能。

📝 摘要(中文)

列表式重排序是面向视觉的检索和多模态检索增强生成(M-RAG)中关键但计算成本高的组成部分,尤其是在长文档上。虽然最近基于VLM的重排序器取得了很高的精度,但由于长的视觉token序列和多步自回归解码,它们的实用性通常受到限制。我们提出了ZipRerank,一种高效的列表式多模态重排序器,它直接解决了这两个瓶颈。它通过轻量级的查询-图像早期交互机制来减少输入长度,并通过在单个前向传递中对所有候选对象进行评分来消除自回归解码。为了实现有效的学习,ZipRerank采用两阶段训练策略:(i)在渲染为图像的大规模文本数据上进行列表式预训练,以及(ii)使用VLM教师蒸馏的软排序监督进行多模态微调。在MMDocIR基准上的大量实验表明,ZipRerank在降低LLM推理延迟高达一个数量级的同时,匹配或超过了最先进的多模态重排序器,使其非常适合对延迟敏感的实际系统。

🔬 方法详解

问题定义:论文旨在解决长文档多模态检索中,现有基于视觉语言模型(VLM)的重排序器计算效率低下的问题。这些方法通常需要处理很长的视觉token序列,并且依赖于多步自回归解码,导致推理延迟高,难以应用于实际的延迟敏感的系统中。

核心思路:ZipRerank的核心思路是通过两个关键机制来提高效率:一是减少输入长度,二是消除自回归解码。通过轻量级的查询-图像早期交互机制,模型可以在早期阶段就融合查询和图像的信息,从而减少后续需要处理的视觉token数量。通过单次前向传播评分,模型可以并行地对所有候选文档进行评分,避免了自回归解码的串行计算。

技术框架:ZipRerank的整体框架包括以下几个主要模块:1) 查询和图像的嵌入模块,用于将文本查询和图像转换为向量表示;2) 查询-图像早期交互模块,用于融合查询和图像的信息,减少输入长度;3) 重排序模块,用于对候选文档进行评分和排序;4) 两阶段训练模块,包括列表式预训练和多模态微调。

关键创新:ZipRerank最重要的技术创新点在于其高效的架构设计,包括查询-图像早期交互和单次前向传播评分。与现有方法相比,ZipRerank避免了处理长视觉token序列和进行多步自回归解码,从而显著提高了推理效率。此外,两阶段训练策略也保证了模型在多模态数据上的性能。

关键设计:在查询-图像早期交互模块中,论文可能采用了注意力机制或其他轻量级的融合方法。在重排序模块中,模型可能使用了交叉注意力机制或其他更复杂的交互方式来对候选文档进行评分。两阶段训练策略中,列表式预训练可能使用了大规模的文本图像数据集,多模态微调可能使用了VLM教师模型提供的软标签作为监督信号。具体的损失函数和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MMDocIR基准测试中,ZipRerank在匹配或超过现有最先进多模态重排序器的性能的同时,将LLM推理延迟降低了一个数量级。这表明ZipRerank在效率方面具有显著优势,使其更适合实际应用。

🎯 应用场景

ZipRerank适用于各种需要处理长文档和多模态信息的检索和生成任务,例如电商产品搜索、新闻推荐、医学图像检索等。其高效的推理速度使其能够部署在对延迟有严格要求的在线系统中,提升用户体验。该研究为构建更高效、实用的多模态信息处理系统提供了新的思路。

📄 摘要(原文)

Listwise reranking is a key yet computationally expensive component in vision-centric retrieval and multimodal retrieval-augmented generation (M-RAG) over long documents. While recent VLM-based rerankers achieve strong accuracy, their practicality is often limited by long visual-token sequences and multi-step autoregressive decoding. We propose ZipRerank, a highly efficient listwise multimodal reranker that directly addresses both bottlenecks. It reduces input length via a lightweight query-image early interaction mechanism and eliminates autoregressive decoding by scoring all candidates in a single forward pass. To enable effective learning, ZipRerank adopts a two-stage training strategy: (i) listwise pretraining on large-scale text data rendered as images, and (ii) multimodal finetuning with VLM-teacher-distilled soft-ranking supervision. Extensive experiments on the MMDocIR benchmark show that ZipRerank matches or surpasses state-of-the-art multimodal rerankers while reducing LLM inference latency by up to an order of magnitude, making it well-suited for latency-sensitive real-world systems. The code is available at https://github.com/dukesun99/ZipRerank.