Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval

作者: Li-Cheng Shen, Jih-Kang Hsieh, Wei-Hua Li, Chu-Song Chen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-06-28

备注: ICMR 2025

💡 一句话要点

提出Mask-aware TIR，融合文本到图像检索与指代表达分割，提升检索精度与可解释性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像检索 指代表达分割 多模态学习 大型语言模型 图像分割 跨模态检索 目标定位

📋 核心要点

现有文本到图像检索方法主要基于全局图像描述，缺乏对图像局部区域的理解和可解释性。
提出Mask-aware TIR任务，并设计两阶段框架，结合分割模型和多模态大语言模型，实现高效检索和精确定位。
实验结果表明，该方法在检索准确性和分割质量上均优于现有方法，验证了其有效性。

📝 摘要（中文）

本文提出了Mask-aware Text-to-Image Retrieval (MaTIR) 任务，该任务统一了文本到图像检索(TIR)和指代表达分割(RES)，既要求高效的图像搜索，又要求精确的目标分割。为了解决这个任务，我们提出了一个两阶段框架：第一阶段进行分割感知的图像检索，第二阶段使用多模态大型语言模型(MLLM)进行重排序和目标定位。我们首先离线利用SAM 2生成对象掩码，并使用Alpha-CLIP提取区域级别的嵌入，从而实现有效的、可扩展的在线检索。其次，MLLM用于优化检索排名并生成边界框，这些边界框与分割掩码进行匹配。我们在COCO和D$^3$数据集上评估了我们的方法，结果表明，与以前的方法相比，在检索准确性和分割质量方面都有显著的提高。

🔬 方法详解

问题定义：论文旨在解决文本到图像检索任务中，现有方法依赖全局图像描述而忽略局部信息，导致检索精度和可解释性不足的问题。同时，指代表达分割虽然能精确定位目标，但计算成本高昂，难以应用于大规模图像检索。

核心思路：论文的核心思路是将文本到图像检索与指代表达分割相结合，利用分割信息提升检索精度，并利用多模态大语言模型进行重排序和目标定位，从而在保证检索效率的同时，提高分割质量。

技术框架：该方法采用两阶段框架。第一阶段是分割感知的图像检索，离线使用SAM 2生成对象掩码，并使用Alpha-CLIP提取区域级别的嵌入。在线检索时，利用这些预先计算的嵌入进行高效检索。第二阶段是重排序和目标定位，使用多模态大型语言模型(MLLM)优化检索排名，并生成边界框，然后将边界框与分割掩码进行匹配。

关键创新：该方法的主要创新在于将分割信息融入到文本到图像检索中，并利用多模态大语言模型进行重排序和目标定位。通过离线计算区域级别的嵌入，实现了高效的在线检索。同时，利用MLLM进行重排序和目标定位，进一步提升了检索精度和分割质量。

关键设计：在第一阶段，使用SAM 2生成对象掩码，并使用Alpha-CLIP提取区域级别的嵌入。Alpha-CLIP能够提取文本和图像区域之间的对齐特征，从而实现分割感知的图像检索。在第二阶段，使用MLLM进行重排序和目标定位。具体来说，将文本查询和图像输入到MLLM中，MLLM生成边界框，然后将边界框与分割掩码进行匹配，选择最匹配的掩码作为最终的分割结果。

🖼️ 关键图片

📊 实验亮点

该方法在COCO和D$^3$数据集上进行了评估，实验结果表明，与现有方法相比，该方法在检索准确性和分割质量方面都有显著的提高。具体而言，该方法在COCO数据集上的检索准确率提高了X%，分割质量提高了Y%。这些结果验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能图像搜索、视觉问答、机器人导航等领域。例如，在电商平台上，用户可以通过自然语言描述快速找到包含特定物体的商品。在机器人导航中，机器人可以根据指令定位并识别目标物体，从而完成复杂的任务。该研究还有助于提升图像检索系统的可解释性，使用户更容易理解检索结果。

📄 摘要（原文）

Text-to-image retrieval (TIR) aims to find relevant images based on a textual query, but existing approaches are primarily based on whole-image captions and lack interpretability. Meanwhile, referring expression segmentation (RES) enables precise object localization based on natural language descriptions but is computationally expensive when applied across large image collections. To bridge this gap, we introduce Mask-aware TIR (MaTIR), a new task that unifies TIR and RES, requiring both efficient image search and accurate object segmentation. To address this task, we propose a two-stage framework, comprising a first stage for segmentation-aware image retrieval and a second stage for reranking and object grounding with a multimodal large language model (MLLM). We leverage SAM 2 to generate object masks and Alpha-CLIP to extract region-level embeddings offline at first, enabling effective and scalable online retrieval. Secondly, MLLM is used to refine retrieval rankings and generate bounding boxes, which are matched to segmentation masks. We evaluate our approach on COCO and D$^3$ datasets, demonstrating significant improvements in both retrieval accuracy and segmentation quality over previous methods.

Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理