Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model

📄 arXiv: 2507.05513v1 📥 PDF

作者: Mengyao Xu, Gabriel Moreira, Ronay Ak, Radek Osmulski, Yauhen Babakhin, Zhiding Yu, Benedikt Schifferer, Even Oldridge

分类: cs.CV, cs.AI

发布日期: 2025-07-07


💡 一句话要点

Llama Nemoretriever Colembed:一种高性能的文本-图像跨模态检索模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态检索 文本图像检索 视觉语言模型 双向注意力 ColBERT NVIDIA Eagle2 后期交互

📋 核心要点

  1. 跨模态检索系统需求日益增长,现有方法难以兼顾精度与效率。
  2. 利用NVIDIA Eagle2 VLM,结合双向注意力和ColBERT风格的后期交互机制,实现细粒度检索。
  3. 3B模型在ViDoRe V1和V2上取得SOTA,但需权衡存储和效率,并采用两阶段训练。

📝 摘要(中文)

本文介绍了一种统一的文本-图像检索模型llama-nemoretriever-colembed,该模型在多个基准测试中实现了最先进的性能。我们发布了两个模型变体,1B和3B。截至2025年6月27日,3B模型取得了最佳性能,在ViDoRe V1上获得了91.0的NDCG@5分,在ViDoRe V2上获得了63.5的NDCG@5分,在这两个排行榜上均排名第一。我们的方法利用了NVIDIA Eagle2视觉-语言模型(VLM),通过将因果注意力替换为双向注意力来修改其架构,并集成了一种ColBERT风格的后期交互机制,以在共享嵌入空间中实现细粒度的多模态检索。虽然这种机制提供了卓越的检索精度,但它在存储和效率方面引入了权衡。我们提供了对这些权衡的全面分析。此外,我们采用了一种两阶段训练策略来增强模型的检索能力。

🔬 方法详解

问题定义:论文旨在解决跨模态文本-图像检索问题。现有方法通常难以在检索精度、存储效率和计算效率之间取得平衡,尤其是在处理大规模数据集时,检索速度和资源消耗成为瓶颈。

核心思路:论文的核心思路是利用预训练的视觉-语言模型(VLM)NVIDIA Eagle2,并对其进行架构上的修改和增强,使其能够更好地进行跨模态检索。通过引入双向注意力和ColBERT风格的后期交互机制,实现细粒度的语义匹配,从而提高检索精度。

技术框架:整体框架包括以下几个主要步骤:1) 使用NVIDIA Eagle2 VLM作为基础模型;2) 将原始的因果注意力机制替换为双向注意力机制,以便更好地捕捉上下文信息;3) 引入ColBERT风格的后期交互机制,将文本和图像编码为一系列细粒度的向量表示,并在检索时进行高效的相似度计算;4) 采用两阶段训练策略,首先进行预训练,然后进行微调,以进一步提升检索性能。

关键创新:最重要的技术创新点在于将ColBERT风格的后期交互机制与预训练的VLM相结合,从而实现了细粒度的跨模态检索。与传统的基于全局特征相似度匹配的方法相比,该方法能够更好地捕捉文本和图像之间的局部对应关系,从而提高检索精度。

关键设计:关键设计包括:1) 使用双向注意力机制替换因果注意力机制,以增强模型对上下文信息的理解;2) 采用ColBERT风格的后期交互机制,将文本和图像编码为一系列细粒度的向量表示;3) 设计了两阶段训练策略,包括预训练和微调两个阶段,以优化模型的检索性能;4) 针对存储和效率方面的权衡,进行了全面的分析和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该模型在ViDoRe V1上取得了91.0的NDCG@5分,在ViDoRe V2上取得了63.5的NDCG@5分,均排名第一,超越了现有技术水平。实验结果表明,该模型在跨模态检索任务中具有显著的优势,尤其是在处理复杂的视频内容时,能够有效地提高检索精度。

🎯 应用场景

该研究成果可广泛应用于图像搜索引擎、视频内容理解、多模态信息检索等领域。例如,用户可以通过文本描述快速找到相关的图像或视频,或者根据图像内容检索相关的文本信息。该模型有望提升跨模态信息检索的效率和准确性,为用户提供更优质的搜索体验。

📄 摘要(原文)

Motivated by the growing demand for retrieval systems that operate across modalities, we introduce llama-nemoretriever-colembed, a unified text-image retrieval model that delivers state-of-the-art performance across multiple benchmarks. We release two model variants, 1B and 3B. The 3B model achieves state of the art performance, scoring NDCG@5 91.0 on ViDoRe V1 and 63.5 on ViDoRe V2, placing first on both leaderboards as of June 27, 2025. Our approach leverages the NVIDIA Eagle2 Vision-Language model (VLM), modifies its architecture by replacing causal attention with bidirectional attention, and integrates a ColBERT-style late interaction mechanism to enable fine-grained multimodal retrieval in a shared embedding space. While this mechanism delivers superior retrieval accuracy, it introduces trade-offs in storage and efficiency. We provide a comprehensive analysis of these trade-offs. Additionally, we adopt a two-stage training strategy to enhance the model's retrieval capabilities.