Recurrence Meets Transformers for Universal Multimodal Retrieval

📄 arXiv: 2509.08897v1 📥 PDF

作者: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-09-10

🔗 代码/项目: GITHUB


💡 一句话要点

提出ReT-2,一种支持多模态查询的通用多模态检索模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 循环Transformer LSTM门控机制 视觉语言模型 跨模态融合

📋 核心要点

  1. 现有方法在处理复杂多模态检索任务时,依赖任务特定微调,且仅支持单模态查询,泛化能力受限。
  2. ReT-2通过循环Transformer架构和LSTM门控机制,动态整合跨层和跨模态信息,实现细粒度特征的有效融合。
  3. 实验表明,ReT-2在多个基准测试中达到SOTA,同时降低了推理时间和内存占用,并在下游任务中提升了性能。

📝 摘要(中文)

随着多模态检索及其在LLM和多模态LLM中的应用快速发展,涌现出日益复杂的检索任务。现有方法主要依赖于视觉-语言模型的任务特定微调,并且仅限于单模态查询或文档。本文提出ReT-2,一种统一的检索模型,支持由图像和文本组成的多模态查询,并在文本和图像共存的多模态文档集合中进行搜索。ReT-2利用多层表示和一个带有LSTM启发式门控机制的循环Transformer架构,以动态地整合跨层和跨模态的信息,从而捕获细粒度的视觉和文本细节。我们在具有挑战性的M2KR和M-BEIR基准上,针对不同的检索配置评估了ReT-2。结果表明,ReT-2在各种设置下始终如一地实现了最先进的性能,同时与先前的方法相比,提供了更快的推理速度和更低的内存使用率。当集成到检索增强生成管道中时,ReT-2还在百科问答(Encyclopedic-VQA)和信息搜索(InfoSeek)数据集上提高了下游性能。我们的源代码和训练模型已公开发布。

🔬 方法详解

问题定义:论文旨在解决现有方法在多模态检索任务中存在的局限性,即无法有效处理多模态查询(图像+文本),并且在处理包含多种模态文档的集合时性能不佳。现有方法通常依赖于针对特定任务微调的视觉-语言模型,缺乏通用性和灵活性,难以适应复杂的多模态检索场景。

核心思路:ReT-2的核心思路是利用循环Transformer架构,结合LSTM风格的门控机制,实现跨层和跨模态信息的动态整合。通过循环机制,模型可以迭代地处理不同层级的特征表示,从而捕获细粒度的视觉和文本信息。门控机制则用于控制信息的流动,选择性地保留或丢弃不同模态和层级的信息,从而提高模型的鲁棒性和效率。

技术框架:ReT-2的整体架构包含以下几个主要模块:1) 多模态输入编码器:用于将图像和文本输入编码成向量表示。可以使用预训练的视觉和语言模型,例如CLIP。2) 循环Transformer层:核心模块,包含多个Transformer层,每一层都接收上一层的输出以及原始的输入特征。LSTM门控机制被集成到Transformer层中,用于控制信息的流动。3) 输出层:用于生成最终的检索结果。可以采用余弦相似度等方法来计算查询和文档之间的相似度。

关键创新:ReT-2的关键创新在于其循环Transformer架构和LSTM门控机制的结合。循环机制允许模型迭代地处理不同层级的特征,从而捕获更丰富的上下文信息。LSTM门控机制则可以动态地控制信息的流动,从而提高模型的鲁棒性和效率。这种设计使得ReT-2能够有效地处理多模态查询和文档,并在各种检索任务中取得优异的性能。与现有方法相比,ReT-2不需要针对特定任务进行微调,具有更好的通用性和灵活性。

关键设计:ReT-2的关键设计细节包括:1) 使用预训练的CLIP模型作为视觉和语言编码器,以获得高质量的特征表示。2) 在循环Transformer层中使用多头注意力机制,以捕获不同模态之间的关系。3) 使用LSTM门控机制来控制信息的流动,包括输入门、遗忘门和输出门。4) 使用余弦相似度作为相似度度量函数,以计算查询和文档之间的相似度。5) 采用对比学习损失函数进行训练,以提高模型的区分能力。

📊 实验亮点

ReT-2在M2KR和M-BEIR基准测试中取得了显著的性能提升,在各种检索配置下均达到了SOTA。与现有方法相比,ReT-2在保证性能的同时,还降低了推理时间和内存占用。此外,ReT-2集成到检索增强生成管道后,在百科问答(Encyclopedic-VQA)和信息搜索(InfoSeek)数据集上进一步提高了下游任务的性能。

🎯 应用场景

ReT-2具有广泛的应用前景,包括但不限于:多模态搜索引擎、智能问答系统、电商商品检索、社交媒体内容推荐等。该模型能够有效处理包含图像和文本的多模态查询,并在多模态文档集合中进行高效检索,从而提升用户体验和信息获取效率。未来,ReT-2有望应用于更复杂的场景,例如跨模态推理和生成。

📄 摘要(原文)

With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images coexist. ReT-2 leverages multi-layer representations and a recurrent Transformer architecture with LSTM-inspired gating mechanisms to dynamically integrate information across layers and modalities, capturing fine-grained visual and textual details. We evaluate ReT-2 on the challenging M2KR and M-BEIR benchmarks across different retrieval configurations. Results demonstrate that ReT-2 consistently achieves state-of-the-art performance across diverse settings, while offering faster inference and reduced memory usage compared to prior approaches. When integrated into retrieval-augmented generation pipelines, ReT-2 also improves downstream performance on Encyclopedic-VQA and InfoSeek datasets. Our source code and trained models are publicly available at: https://github.com/aimagelab/ReT-2