Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model

作者: Mengyao Xu, Gabriel Moreira, Ronay Ak, Radek Osmulski, Yauhen Babakhin, Zhiding Yu, Benedikt Schifferer, Even Oldridge

分类: cs.CV, cs.AI

发布日期: 2025-07-07

💡 一句话要点

Llama Nemoretriever Colembed：一种高性能的文本-图像跨模态检索模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态检索 文本图像检索 视觉语言模型 双向注意力 ColBERT NVIDIA Eagle2 后期交互

📋 核心要点

跨模态检索系统需求日益增长，现有方法难以兼顾精度与效率。
利用NVIDIA Eagle2 VLM，结合双向注意力和ColBERT风格的后期交互机制，实现细粒度检索。
3B模型在ViDoRe V1和V2上取得SOTA，但需权衡存储和效率，并采用两阶段训练。

📝 摘要（中文）

本文介绍了一种统一的文本-图像检索模型llama-nemoretriever-colembed，该模型在多个基准测试中实现了最先进的性能。我们发布了两个模型变体，1B和3B。截至2025年6月27日，3B模型取得了最佳性能，在ViDoRe V1上获得了91.0的NDCG@5分，在ViDoRe V2上获得了63.5的NDCG@5分，在这两个排行榜上均排名第一。我们的方法利用了NVIDIA Eagle2视觉-语言模型（VLM），通过将因果注意力替换为双向注意力来修改其架构，并集成了一种ColBERT风格的后期交互机制，以在共享嵌入空间中实现细粒度的多模态检索。虽然这种机制提供了卓越的检索精度，但它在存储和效率方面引入了权衡。我们提供了对这些权衡的全面分析。此外，我们采用了一种两阶段训练策略来增强模型的检索能力。

🔬 方法详解

问题定义：论文旨在解决跨模态文本-图像检索问题。现有方法通常难以在检索精度、存储效率和计算效率之间取得平衡，尤其是在处理大规模数据集时，检索速度和资源消耗成为瓶颈。

核心思路：论文的核心思路是利用预训练的视觉-语言模型（VLM）NVIDIA Eagle2，并对其进行架构上的修改和增强，使其能够更好地进行跨模态检索。通过引入双向注意力和ColBERT风格的后期交互机制，实现细粒度的语义匹配，从而提高检索精度。

技术框架：整体框架包括以下几个主要步骤：1) 使用NVIDIA Eagle2 VLM作为基础模型；2) 将原始的因果注意力机制替换为双向注意力机制，以便更好地捕捉上下文信息；3) 引入ColBERT风格的后期交互机制，将文本和图像编码为一系列细粒度的向量表示，并在检索时进行高效的相似度计算；4) 采用两阶段训练策略，首先进行预训练，然后进行微调，以进一步提升检索性能。

关键创新：最重要的技术创新点在于将ColBERT风格的后期交互机制与预训练的VLM相结合，从而实现了细粒度的跨模态检索。与传统的基于全局特征相似度匹配的方法相比，该方法能够更好地捕捉文本和图像之间的局部对应关系，从而提高检索精度。

关键设计：关键设计包括：1) 使用双向注意力机制替换因果注意力机制，以增强模型对上下文信息的理解；2) 采用ColBERT风格的后期交互机制，将文本和图像编码为一系列细粒度的向量表示；3) 设计了两阶段训练策略，包括预训练和微调两个阶段，以优化模型的检索性能；4) 针对存储和效率方面的权衡，进行了全面的分析和优化。

🖼️ 关键图片

📊 实验亮点

该模型在ViDoRe V1上取得了91.0的NDCG@5分，在ViDoRe V2上取得了63.5的NDCG@5分，均排名第一，超越了现有技术水平。实验结果表明，该模型在跨模态检索任务中具有显著的优势，尤其是在处理复杂的视频内容时，能够有效地提高检索精度。

🎯 应用场景

该研究成果可广泛应用于图像搜索引擎、视频内容理解、多模态信息检索等领域。例如，用户可以通过文本描述快速找到相关的图像或视频，或者根据图像内容检索相关的文本信息。该模型有望提升跨模态信息检索的效率和准确性，为用户提供更优质的搜索体验。

📄 摘要（原文）

Motivated by the growing demand for retrieval systems that operate across modalities, we introduce llama-nemoretriever-colembed, a unified text-image retrieval model that delivers state-of-the-art performance across multiple benchmarks. We release two model variants, 1B and 3B. The 3B model achieves state of the art performance, scoring NDCG@5 91.0 on ViDoRe V1 and 63.5 on ViDoRe V2, placing first on both leaderboards as of June 27, 2025. Our approach leverages the NVIDIA Eagle2 Vision-Language model (VLM), modifies its architecture by replacing causal attention with bidirectional attention, and integrates a ColBERT-style late interaction mechanism to enable fine-grained multimodal retrieval in a shared embedding space. While this mechanism delivers superior retrieval accuracy, it introduces trade-offs in storage and efficiency. We provide a comprehensive analysis of these trade-offs. Additionally, we adopt a two-stage training strategy to enhance the model's retrieval capabilities.

Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理