Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval
作者: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
分类: cs.CV, cs.AI, cs.CL, cs.MM
发布日期: 2025-03-03
备注: CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReT模型,增强视觉-语言Transformer,实现鲁棒的多模态文档检索。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态文档检索 视觉-语言Transformer 循环神经网络 跨模态融合 特征提取
📋 核心要点
- 跨模态检索在LLM和多模态LLM中应用广泛,但现有方法在处理图像文本交错的多模态文档检索方面存在不足。
- ReT模型通过Transformer循环单元,在不同层级融合视觉和文本特征,实现多层次跨模态理解和特征提取。
- 在M2KR和M-BEIR基准测试中,ReT模型在多种设置下均达到了当前最优的性能指标。
📝 摘要(中文)
本文提出了一种用于多模态文档检索的方法,该方法支持由图像和文本组成的多模态查询,并能在图像和文本交错的多模态文档集合中进行搜索。该模型ReT利用从视觉和文本骨干网络不同层提取的多层次表示,分别作用于查询和文档端。为了实现多层次和跨模态的理解和特征提取,ReT采用了一种新颖的基于Transformer的循环单元,该单元集成了不同层的文本和视觉特征,并利用了受LSTM经典设计启发的Sigmoid门控机制。在M2KR和M-BEIR基准上的大量实验表明,ReT在各种设置下都取得了最先进的性能。源代码和训练好的模型已公开。
🔬 方法详解
问题定义:论文旨在解决多模态文档检索问题,即给定一个包含图像和文本的多模态查询,从一个包含图像和文本交错排列的多模态文档集合中检索出相关的文档。现有方法在处理这种复杂的多模态文档结构时,难以充分利用不同层级的视觉和文本信息,导致检索性能下降。
核心思路:论文的核心思路是利用Transformer的循环单元,在不同层级融合视觉和文本特征,从而实现更深层次的跨模态理解。通过循环机制,模型可以逐步整合来自不同模态和不同层级的信息,从而更好地捕捉文档的整体语义。
技术框架:ReT模型的整体框架包括以下几个主要模块:1) 视觉和文本骨干网络:用于提取图像和文本的特征表示。2) 多层特征提取:从骨干网络的不同层提取特征,以捕捉不同粒度的信息。3) Transformer循环单元:用于融合不同层级的视觉和文本特征。4) 检索模块:用于计算查询和文档之间的相似度,并返回最相关的文档。
关键创新:ReT模型的最重要的技术创新点在于其Transformer循环单元的设计。该单元受到LSTM的启发,利用Sigmoid门控机制来控制信息的流动,从而更好地融合不同层级的视觉和文本特征。这种循环机制使得模型能够逐步整合来自不同模态和不同层级的信息,从而更好地捕捉文档的整体语义。
关键设计:在Transformer循环单元中,使用了Sigmoid门控机制来控制信息的流动。具体来说,模型使用两个Sigmoid门,一个用于控制视觉信息的流入,另一个用于控制文本信息的流入。这些门的值取决于当前层的视觉和文本特征,以及上一层的隐藏状态。通过这种方式,模型可以自适应地调整不同模态和不同层级的信息的权重,从而更好地融合这些信息。
🖼️ 关键图片
📊 实验亮点
ReT模型在M2KR和M-BEIR基准测试中取得了显著的性能提升,在多个设置下均达到了state-of-the-art水平。具体性能数据和对比基线信息请参考论文原文。
🎯 应用场景
该研究成果可应用于多媒体信息检索、智能文档管理、跨模态问答等领域。例如,用户可以通过上传包含图像和文本的查询,快速检索到包含相关信息的文档。该技术还有助于提升搜索引擎在处理多模态内容时的准确性和效率,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Cross-modal retrieval is gaining increasing efficacy and interest from the research community, thanks to large-scale training, novel architectural and learning designs, and its application in LLMs and multimodal LLMs. In this paper, we move a step forward and design an approach that allows for multimodal queries, composed of both an image and a text, and can search within collections of multimodal documents, where images and text are interleaved. Our model, ReT, employs multi-level representations extracted from different layers of both visual and textual backbones, both at the query and document side. To allow for multi-level and cross-modal understanding and feature extraction, ReT employs a novel Transformer-based recurrent cell that integrates both textual and visual features at different layers, and leverages sigmoidal gates inspired by the classical design of LSTMs. Extensive experiments on M2KR and M-BEIR benchmarks show that ReT achieves state-of-the-art performance across diverse settings. Our source code and trained models are publicly available at https://github.com/aimagelab/ReT.