Recurrence Meets Transformers for Universal Multimodal Retrieval

作者: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-09-10

🔗 代码/项目: GITHUB

💡 一句话要点

提出ReT-2，一种支持多模态查询的通用多模态检索模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 循环Transformer LSTM门控机制 视觉语言模型 跨模态融合

📋 核心要点

现有方法在处理复杂多模态检索任务时，依赖任务特定微调，且仅支持单模态查询，泛化能力受限。
ReT-2通过循环Transformer架构和LSTM门控机制，动态整合跨层和跨模态信息，实现细粒度特征的有效融合。
实验表明，ReT-2在多个基准测试中达到SOTA，同时降低了推理时间和内存占用，并在下游任务中提升了性能。

📝 摘要（中文）

随着多模态检索及其在LLM和多模态LLM中的应用快速发展，涌现出日益复杂的检索任务。现有方法主要依赖于视觉-语言模型的任务特定微调，并且仅限于单模态查询或文档。本文提出ReT-2，一种统一的检索模型，支持由图像和文本组成的多模态查询，并在文本和图像共存的多模态文档集合中进行搜索。ReT-2利用多层表示和一个带有LSTM启发式门控机制的循环Transformer架构，以动态地整合跨层和跨模态的信息，从而捕获细粒度的视觉和文本细节。我们在具有挑战性的M2KR和M-BEIR基准上，针对不同的检索配置评估了ReT-2。结果表明，ReT-2在各种设置下始终如一地实现了最先进的性能，同时与先前的方法相比，提供了更快的推理速度和更低的内存使用率。当集成到检索增强生成管道中时，ReT-2还在百科问答（Encyclopedic-VQA）和信息搜索（InfoSeek）数据集上提高了下游性能。我们的源代码和训练模型已公开发布。

🔬 方法详解

问题定义：论文旨在解决现有方法在多模态检索任务中存在的局限性，即无法有效处理多模态查询（图像+文本），并且在处理包含多种模态文档的集合时性能不佳。现有方法通常依赖于针对特定任务微调的视觉-语言模型，缺乏通用性和灵活性，难以适应复杂的多模态检索场景。

核心思路：ReT-2的核心思路是利用循环Transformer架构，结合LSTM风格的门控机制，实现跨层和跨模态信息的动态整合。通过循环机制，模型可以迭代地处理不同层级的特征表示，从而捕获细粒度的视觉和文本信息。门控机制则用于控制信息的流动，选择性地保留或丢弃不同模态和层级的信息，从而提高模型的鲁棒性和效率。

技术框架：ReT-2的整体架构包含以下几个主要模块：1) 多模态输入编码器：用于将图像和文本输入编码成向量表示。可以使用预训练的视觉和语言模型，例如CLIP。2) 循环Transformer层：核心模块，包含多个Transformer层，每一层都接收上一层的输出以及原始的输入特征。LSTM门控机制被集成到Transformer层中，用于控制信息的流动。3) 输出层：用于生成最终的检索结果。可以采用余弦相似度等方法来计算查询和文档之间的相似度。

关键创新：ReT-2的关键创新在于其循环Transformer架构和LSTM门控机制的结合。循环机制允许模型迭代地处理不同层级的特征，从而捕获更丰富的上下文信息。LSTM门控机制则可以动态地控制信息的流动，从而提高模型的鲁棒性和效率。这种设计使得ReT-2能够有效地处理多模态查询和文档，并在各种检索任务中取得优异的性能。与现有方法相比，ReT-2不需要针对特定任务进行微调，具有更好的通用性和灵活性。

关键设计：ReT-2的关键设计细节包括：1) 使用预训练的CLIP模型作为视觉和语言编码器，以获得高质量的特征表示。2) 在循环Transformer层中使用多头注意力机制，以捕获不同模态之间的关系。3) 使用LSTM门控机制来控制信息的流动，包括输入门、遗忘门和输出门。4) 使用余弦相似度作为相似度度量函数，以计算查询和文档之间的相似度。5) 采用对比学习损失函数进行训练，以提高模型的区分能力。

📊 实验亮点

ReT-2在M2KR和M-BEIR基准测试中取得了显著的性能提升，在各种检索配置下均达到了SOTA。与现有方法相比，ReT-2在保证性能的同时，还降低了推理时间和内存占用。此外，ReT-2集成到检索增强生成管道后，在百科问答（Encyclopedic-VQA）和信息搜索（InfoSeek）数据集上进一步提高了下游任务的性能。

🎯 应用场景

ReT-2具有广泛的应用前景，包括但不限于：多模态搜索引擎、智能问答系统、电商商品检索、社交媒体内容推荐等。该模型能够有效处理包含图像和文本的多模态查询，并在多模态文档集合中进行高效检索，从而提升用户体验和信息获取效率。未来，ReT-2有望应用于更复杂的场景，例如跨模态推理和生成。

📄 摘要（原文）

With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images coexist. ReT-2 leverages multi-layer representations and a recurrent Transformer architecture with LSTM-inspired gating mechanisms to dynamically integrate information across layers and modalities, capturing fine-grained visual and textual details. We evaluate ReT-2 on the challenging M2KR and M-BEIR benchmarks across different retrieval configurations. Results demonstrate that ReT-2 consistently achieves state-of-the-art performance across diverse settings, while offering faster inference and reduced memory usage compared to prior approaches. When integrated into retrieval-augmented generation pipelines, ReT-2 also improves downstream performance on Encyclopedic-VQA and InfoSeek datasets. Our source code and trained models are publicly available at: https://github.com/aimagelab/ReT-2

Recurrence Meets Transformers for Universal Multimodal Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册