Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking
作者: Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin
分类: cs.CV, cs.LG
发布日期: 2025-10-08
备注: preprint
💡 一句话要点
提出EDJE:一种高效判别式联合编码器,用于大规模视觉-语言重排序。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言检索 联合编码器 重排序 多模态学习 高效推理
📋 核心要点
- 现有视觉-语言检索依赖嵌入模型,但联合编码重排序器因视觉特征提取计算量大而受限。
- EDJE通过离线预计算和压缩视觉tokens,显著降低在线推理的计算和存储成本。
- EDJE在保持检索性能的同时,实现了高吞吐量,并在Flickr和COCO数据集上取得了与现有技术相当的结果。
📝 摘要(中文)
多模态检索仍然依赖于基于嵌入的模型,如CLIP,以便对预先计算的图像嵌入进行快速向量搜索。然而,与文本检索中联合编码重排序器已成为标准不同,类似的视觉-语言重排序器在很大程度上是缺失的。我们发现,诸如BLIP等具有开创性的联合编码器受到昂贵的视觉特征提取阶段的严重瓶颈,从而阻碍了大规模的实际部署。受此瓶颈的驱动,我们引入了EDJE,一种高效判别式联合编码器,它可以离线预计算视觉tokens,并通过轻量级的基于注意力的适配器压缩它们,因此在线推理仅在少量视觉tokens和文本上运行紧凑的联合编码器。EDJE在显著降低存储和在线计算的同时,保持了强大的检索性能,从而实现了高吞吐量的推理。具体来说,EDJE处理5万个图像-文本对/秒,同时每个图像需要49kB的磁盘存储空间,与Flickr(零样本)和COCO(微调)检索方面的现有技术相匹配。该实现和检查点将很快公开提供。
🔬 方法详解
问题定义:论文旨在解决大规模视觉-语言检索中,联合编码重排序器因视觉特征提取计算量大而难以实际部署的问题。现有方法,如BLIP,虽然性能优异,但其视觉特征提取阶段的计算成本过高,导致无法满足大规模检索对高吞吐量和低延迟的要求。
核心思路:论文的核心思路是预计算并压缩视觉特征,从而显著降低在线推理阶段的计算负担。具体来说,EDJE首先离线提取图像的视觉tokens,然后使用轻量级的注意力机制对这些tokens进行压缩,得到更紧凑的视觉表示。在线推理时,EDJE仅需处理压缩后的视觉tokens和文本,从而大大提高了推理速度。
技术框架:EDJE的整体框架包括以下几个主要阶段:1) 离线视觉特征提取:使用预训练的视觉模型(如ViT)提取图像的视觉tokens。2) 视觉tokens压缩:使用轻量级的基于注意力的适配器对视觉tokens进行压缩,得到紧凑的视觉表示。3) 联合编码:将压缩后的视觉表示和文本输入到联合编码器中,得到图像-文本对的相似度得分。4) 重排序:根据相似度得分对检索结果进行重排序。
关键创新:EDJE的关键创新在于其高效的视觉特征压缩方法。通过离线预计算和轻量级注意力机制,EDJE能够在显著降低计算成本的同时,保持较好的检索性能。与现有方法相比,EDJE避免了在线进行昂贵的视觉特征提取,从而实现了高吞吐量的推理。
关键设计:EDJE的关键设计包括:1) 使用预训练的ViT模型提取视觉tokens,保证了视觉特征的质量。2) 使用轻量级的Transformer结构作为注意力适配器,降低了压缩过程的计算成本。3) 采用对比学习目标函数训练联合编码器,使其能够更好地学习图像-文本之间的相似度关系。具体的参数设置和网络结构细节将在论文中详细描述(未知)。
📊 实验亮点
EDJE在Flickr和COCO数据集上取得了与现有技术相当的检索性能,同时显著降低了计算和存储成本。具体来说,EDJE能够以5万个图像-文本对/秒的速度进行推理,并且每个图像仅需49kB的磁盘存储空间。这些结果表明,EDJE是一种高效且实用的视觉-语言重排序方法。
🎯 应用场景
EDJE具有广泛的应用前景,可用于大规模图像-文本检索、视觉问答、图像字幕生成等领域。其高效的推理能力使其能够部署在资源受限的设备上,例如移动设备和嵌入式系统。未来,EDJE可以进一步扩展到其他多模态任务中,例如视频理解和语音识别。
📄 摘要(原文)
Multimodal retrieval still leans on embedding-based models like CLIP for fast vector search over pre-computed image embeddings. Yet, unlike text retrieval, where joint-encoder rerankers are standard, comparable vision--language rerankers are largely absent. We find that seminal joint encoders such as BLIP are severely bottlenecked by an expensive visual feature-extraction stage, preventing practical deployment at scale. Motivated by this bottleneck, we introduce EDJE, an Efficient Discriminative Joint Encoder that precomputes vision tokens offline and compresses them via a lightweight attention-based adapter, so online inference runs only a compact joint encoder over a small set of visual tokens plus the text. EDJE preserves strong retrieval performance while drastically reducing storage and online compute, enabling high-throughput inference. Specifically, EDJE processes 50k image--text pairs/second while requiring 49kB of disk storage per image, matching prior art on Flickr (zero-shot) and COCO (fine-tuned) retrieval. The implementation and checkpoints will be made publicly available shortly.