Recurrence Meets Transformers for Universal Multimodal Retrieval
作者: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
分类: cs.CV, cs.AI, cs.CL, cs.MM
发布日期: 2025-09-10
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReT-2以解决多模态检索任务的复杂性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 递归Transformer 信息整合 视觉-语言模型 LSTM机制 性能提升 模型优化
📋 核心要点
- 现有多模态检索方法主要依赖于任务特定的微调,且通常只能处理单一模态的查询,限制了其应用范围。
- 本文提出的ReT-2模型支持多模态查询,结合图像和文本,能够在多模态文档集合中进行检索,提升了检索的灵活性和准确性。
- 实验结果显示,ReT-2在M2KR和M-BEIR基准上均表现出色,且在推理速度和内存使用上均优于现有方法。
📝 摘要(中文)
随着多模态检索的快速发展及其在大语言模型(LLMs)中的应用,越来越复杂的检索任务应运而生。现有方法主要依赖于视觉-语言模型的任务特定微调,且局限于单一模态的查询或文档。本文提出了ReT-2,一个统一的检索模型,支持由图像和文本组成的多模态查询,并在文本和图像共存的多模态文档集合中进行检索。ReT-2利用多层表示和受LSTM启发的门控机制的递归Transformer架构,动态整合跨层和跨模态的信息,捕捉细粒度的视觉和文本细节。我们在具有挑战性的M2KR和M-BEIR基准上评估ReT-2,结果表明其在多种设置下均实现了最先进的性能,同时在推理速度和内存使用上优于先前方法。
🔬 方法详解
问题定义:本文旨在解决现有多模态检索方法在处理复杂检索任务时的局限性,尤其是对单一模态的依赖和任务特定微调的不足。
核心思路:ReT-2通过引入递归Transformer架构和LSTM启发的门控机制,动态整合多层次的视觉和文本信息,从而实现对多模态查询的有效处理。
技术框架:ReT-2的整体架构包括多层表示学习模块和递归信息整合模块,能够在不同层次和模态之间进行信息交互,提升检索的准确性和效率。
关键创新:ReT-2的主要创新在于其递归Transformer架构和动态信息整合机制,这使得模型能够在多模态环境中捕捉细粒度的特征,区别于传统的单一模态处理方法。
关键设计:在模型设计中,采用了多层次的特征表示和LSTM风格的门控机制,确保信息在不同层次和模态之间的有效流动,同时优化了损失函数以适应多模态检索的需求。
🖼️ 关键图片
📊 实验亮点
在M2KR和M-BEIR基准测试中,ReT-2模型在多种检索配置下均实现了最先进的性能,推理速度更快,内存使用更少。与现有方法相比,ReT-2在多个实验设置中均表现出显著的性能提升,尤其是在下游任务如Encyclopedic-VQA和InfoSeek数据集中的应用效果显著改善。
🎯 应用场景
ReT-2模型在多模态检索领域具有广泛的应用潜力,尤其是在需要同时处理图像和文本信息的任务中,如图像搜索、视频内容检索和信息检索系统。其高效的检索能力和较低的资源消耗使其在实际应用中具备良好的价值,未来可能推动多模态人工智能系统的发展。
📄 摘要(原文)
With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images coexist. ReT-2 leverages multi-layer representations and a recurrent Transformer architecture with LSTM-inspired gating mechanisms to dynamically integrate information across layers and modalities, capturing fine-grained visual and textual details. We evaluate ReT-2 on the challenging M2KR and M-BEIR benchmarks across different retrieval configurations. Results demonstrate that ReT-2 consistently achieves state-of-the-art performance across diverse settings, while offering faster inference and reduced memory usage compared to prior approaches. When integrated into retrieval-augmented generation pipelines, ReT-2 also improves downstream performance on Encyclopedic-VQA and InfoSeek datasets. Our source code and trained models are publicly available at: https://github.com/aimagelab/ReT-2