Towards Text-Image Interleaved Retrieval

📄 arXiv: 2502.12799v1 📥 PDF

作者: Xin Zhang, Ziqi Dai, Yongqi Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Jun Yu, Wenjie Li, Min Zhang

分类: cs.CL, cs.CV, cs.IR

发布日期: 2025-02-18

备注: 16 pages, 14 figures


💡 一句话要点

提出文本-图像交错检索任务与MME模型,解决多图文场景下的信息检索问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本图像交错检索 多模态信息检索 多模态大语言模型 视觉Token压缩 Matryoshka嵌入器

📋 核心要点

  1. 现有多模态信息检索主要集中于单图像输入,限制了其在涉及多图和图文交错内容的实际应用。
  2. 提出 Matryoshka 多模态嵌入器 (MME),通过不同粒度压缩视觉token,解决 MLLM 在处理大量图像时的计算瓶颈。
  3. 实验表明,MME 显著优于现有模型,证明了其在文本-图像交错检索任务中的有效性,并开源数据集和代码。

📝 摘要(中文)

本文提出了文本-图像交错检索(TIIR)任务,其中查询和文档都是文本-图像交错序列,模型需要理解交错上下文的语义以进行有效检索。作者构建了一个基于真实 wikiHow 教程的 TIIR 基准,并设计了一个特定的流程来生成交错查询。为了探索该任务,作者适配了几种现成的检索器,并通过交错多模态大型语言模型(MLLM)构建了一个密集基线。然后,作者提出了一种新颖的 Matryoshka 多模态嵌入器(MME),它以不同的粒度压缩视觉token的数量,以解决基于 MLLM 的 TIIR 模型中视觉token过多的挑战。实验表明,简单地适配现有模型并不能始终产生有效的结果。MME 通过大幅减少视觉token的数量,实现了相对于基线的显著改进。作者提供了广泛的分析,并将发布数据集和代码以促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决文本-图像交错检索(TIIR)问题,即在查询和文档都是文本-图像交错序列的情况下,如何有效地进行信息检索。现有方法主要针对单张图像,无法处理多图文交错的复杂场景。直接使用多模态大语言模型(MLLM)处理TIIR任务时,会面临视觉token数量过多,计算成本高昂的问题。

核心思路:论文的核心思路是设计一种能够有效压缩视觉token,同时保留关键语义信息的多模态嵌入器。通过减少视觉token的数量,降低计算复杂度,使得MLLM能够高效地处理TIIR任务。MME的核心在于模仿俄罗斯套娃(Matryoshka)的结构,在不同粒度上压缩视觉信息。

技术框架:整体框架包含以下几个步骤:1) 构建TIIR数据集,包括文本-图像交错的查询和文档;2) 使用MLLM作为基础模型,将文本和图像编码成向量表示;3) 使用MME压缩图像的视觉token;4) 计算查询和文档的向量相似度,进行检索。

关键创新:MME是论文的关键创新点。它通过多粒度的视觉token压缩,在减少计算量的同时,尽可能保留了图像的关键语义信息。与直接使用原始视觉token相比,MME能够显著降低计算成本,并提升检索性能。

关键设计:MME的具体设计包括:1) 使用视觉编码器提取图像的视觉token;2) 设计多层压缩模块,每一层以不同的粒度压缩视觉token;3) 使用注意力机制融合不同粒度的视觉token;4) 将压缩后的视觉token输入到MLLM中进行编码。具体的损失函数和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MME 在 TIIR 任务上取得了显著的性能提升。相比于直接使用 MLLM 作为基线模型,MME 能够以更少的视觉token数量,达到更高的检索准确率。具体的性能提升数据在论文中有详细展示,证明了 MME 在处理多图文交错检索任务上的有效性。

🎯 应用场景

该研究成果可应用于在线教育、产品搜索、新闻推荐等领域。例如,在 wikiHow 教程检索中,用户可以通过图文混合的查询找到相关的教程步骤。该研究有助于提升多模态信息检索的效率和准确性,为用户提供更智能、更便捷的信息服务,并推动多模态大模型在实际场景中的应用。

📄 摘要(原文)

Current multimodal information retrieval studies mainly focus on single-image inputs, which limits real-world applications involving multiple images and text-image interleaved content. In this work, we introduce the text-image interleaved retrieval (TIIR) task, where the query and document are interleaved text-image sequences, and the model is required to understand the semantics from the interleaved context for effective retrieval. We construct a TIIR benchmark based on naturally interleaved wikiHow tutorials, where a specific pipeline is designed to generate interleaved queries. To explore the task, we adapt several off-the-shelf retrievers and build a dense baseline by interleaved multimodal large language model (MLLM). We then propose a novel Matryoshka Multimodal Embedder (MME), which compresses the number of visual tokens at different granularity, to address the challenge of excessive visual tokens in MLLM-based TIIR models. Experiments demonstrate that simple adaption of existing models does not consistently yield effective results. Our MME achieves significant improvements over the baseline by substantially fewer visual tokens. We provide extensive analysis and will release the dataset and code to facilitate future research.