A Comprehensive Survey on Composed Image Retrieval

📄 arXiv: 2502.18495v2 📥 PDF

作者: Xuemeng Song, Haoqiang Lin, Haokun Wen, Bohan Hou, Mingzhu Xu, Liqiang Nie

分类: cs.MM, cs.AI, cs.CV, cs.IR

发布日期: 2025-02-19 (更新: 2025-03-04)

🔗 代码/项目: GITHUB


💡 一句话要点

对组合图像检索(CIR)任务进行全面综述,为该领域研究提供及时概览。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 多模态学习 图像检索 文本图像融合 零样本学习

📋 核心要点

  1. 组合图像检索(CIR)旨在根据参考图像和文本描述的修改来检索目标图像,现有方法在理解复杂修改和处理多模态信息方面存在挑战。
  2. 该综述系统地整理和分类了现有的监督和零样本CIR模型,并讨论了与CIR相关的任务,为研究人员提供了一个全面的了解。
  3. 通过总结基准数据集和比较实验结果,该综述分析了现有方法的优缺点,并提出了该领域有希望的未来研究方向。

📝 摘要(中文)

组合图像检索(CIR)是一项新兴且具有挑战性的任务,它允许用户使用多模态查询来搜索目标图像,该查询包括参考图像和修改文本,用于指定用户对参考图像的期望更改。鉴于其重要的学术和实践价值,CIR已成为计算机视觉和机器学习领域中一个快速增长的研究领域,尤其是在深度学习取得进展的情况下。据我们所知,目前还没有对CIR进行全面的综述,以提供对该领域的及时概览。因此,我们综合了来自ACM TOIS、SIGIR和CVPR等顶级会议和期刊的120多篇出版物的见解。特别是,我们使用细粒度的分类法系统地对现有的监督CIR和零样本CIR模型进行分类。为了进行全面的综述,我们还简要讨论了与CIR密切相关的任务的方法,例如基于属性的CIR和基于对话的CIR。此外,我们总结了用于评估的基准数据集,并通过比较多个数据集的实验结果来分析现有的监督和零样本CIR方法。此外,我们还介绍了该领域有希望的未来方向,为有兴趣进一步探索的研究人员提供实用的见解。相关工作的精选集在https://github.com/haokunwen/Awesome-Composed-Image-Retrieval中维护并持续更新。

🔬 方法详解

问题定义:组合图像检索(CIR)旨在根据给定的参考图像和描述期望修改的文本查询,检索出符合修改后的目标图像。现有方法通常难以准确理解文本描述的细微语义,并将其与图像特征有效融合,导致检索结果不理想。此外,零样本CIR面临着缺乏训练数据的问题,难以泛化到未见过的修改类型。

核心思路:该综述的核心在于对现有CIR方法进行系统性的分类和分析,从而揭示不同方法的优缺点,并为未来的研究方向提供指导。通过对大量文献的梳理,作者将CIR方法分为监督学习和零样本学习两大类,并进一步细化了各类方法的技术特点。这种分类方式有助于研究人员快速了解CIR领域的研究现状。

技术框架:该综述没有提出新的算法框架,而是对现有方法进行了总结和归纳。其技术框架主要体现在对CIR相关文献的组织和分类上,包括:1) 对CIR任务的定义和挑战进行阐述;2) 对监督学习和零样本学习CIR方法进行分类和描述;3) 对相关任务(如基于属性的CIR和基于对话的CIR)进行简要介绍;4) 对基准数据集进行总结;5) 对现有方法的实验结果进行比较分析;6) 对未来研究方向进行展望。

关键创新:该综述的创新之处在于其全面性和系统性。作者收集了120多篇相关文献,并对其进行了细致的分析和分类,从而为研究人员提供了一个全面的CIR领域概览。此外,该综述还对未来研究方向进行了展望,为研究人员提供了有价值的参考。

关键设计:该综述的关键设计在于其分类体系。作者将CIR方法分为监督学习和零样本学习两大类,并根据不同的技术特点对各类方法进行了细化。这种分类方式有助于研究人员快速找到自己感兴趣的方法,并了解其优缺点。此外,该综述还对基准数据集进行了总结,为研究人员提供了方便的实验平台。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述总结了多个基准数据集上的实验结果,并对现有方法的性能进行了比较分析。例如,在某些数据集上,基于深度学习的CIR方法能够显著优于传统方法。然而,零样本CIR方法的性能仍然有待提高,尤其是在处理复杂修改时。

🎯 应用场景

组合图像检索技术在电商、图像编辑、时尚搭配等领域具有广泛的应用前景。例如,用户可以通过上传一件衣服的图片,并用文字描述颜色、款式等修改要求,快速找到符合要求的商品。此外,该技术还可以应用于图像生成和编辑,例如根据用户的文字描述修改图像的属性。

📄 摘要(原文)

Composed Image Retrieval (CIR) is an emerging yet challenging task that allows users to search for target images using a multimodal query, comprising a reference image and a modification text specifying the user's desired changes to the reference image. Given its significant academic and practical value, CIR has become a rapidly growing area of interest in the computer vision and machine learning communities, particularly with the advances in deep learning. To the best of our knowledge, there is currently no comprehensive review of CIR to provide a timely overview of this field. Therefore, we synthesize insights from over 120 publications in top conferences and journals, including ACM TOIS, SIGIR, and CVPR In particular, we systematically categorize existing supervised CIR and zero-shot CIR models using a fine-grained taxonomy. For a comprehensive review, we also briefly discuss approaches for tasks closely related to CIR, such as attribute-based CIR and dialog-based CIR. Additionally, we summarize benchmark datasets for evaluation and analyze existing supervised and zero-shot CIR methods by comparing experimental results across multiple datasets. Furthermore, we present promising future directions in this field, offering practical insights for researchers interested in further exploration. The curated collection of related works is maintained and continuously updated in https://github.com/haokunwen/Awesome-Composed-Image-Retrieval.