Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity
作者: Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
分类: cs.CV
发布日期: 2024-09-07 (更新: 2024-11-07)
备注: 14 pages, 6 figures, International Conference on Technologies and Applications of Artificial Intelligence (TAAI) Camera Ready
期刊: Technologies and Applications of Artificial Intelligence, pp. 77-90, Springer, 2025
DOI: 10.1007/978-981-96-4589-3_6
🔗 代码/项目: GITHUB
💡 一句话要点
提出WeiMoCIR,一种无需训练的零样本组合图像检索方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 零样本学习 多模态融合 加权平均 图像描述
📋 核心要点
- 现有组合图像检索方法依赖大量标注数据或预训练,成本高昂且泛化性受限。
- WeiMoCIR通过加权融合图像和文本模态信息,直接构建查询表示,无需训练。
- 实验表明,该方法在FashionIQ和CIRR数据集上有效,验证了其零样本检索能力。
📝 摘要(中文)
组合图像检索(CIR)通过结合参考图像和文本修改描述来构建查询,成为一种新的图像搜索形式,能够更好地捕捉用户意图。然而,以监督方式训练CIR模型通常需要耗费大量人力来收集(参考图像、文本修改、目标图像)三元组。现有的零样本CIR(ZS-CIR)方法虽然避免了在特定下游数据集上进行训练,但仍然需要在大型图像数据集上进行额外的预训练。本文提出了一种无需训练的ZS-CIR方法。我们的方法,即用于CIR的加权模态融合和相似性(WeiMoCIR),基于图像和文本模态可以通过简单的加权平均有效结合的假设。这使得可以直接从参考图像和文本修改描述构建查询表示。为了进一步提高检索性能,我们使用多模态大型语言模型(MLLM)为数据库图像生成图像描述,并通过加权平均将这些文本描述与图像信息结合,从而将它们纳入相似性计算中。我们的方法简单,易于实现,并通过在FashionIQ和CIRR数据集上的实验验证了其有效性。代码可在https://github.com/whats2000/WeiMoCIR获取。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据给定的参考图像和文本修改描述,从图像数据库中检索目标图像。现有方法主要依赖于监督学习,需要大量的(参考图像, 文本修改, 目标图像)三元组数据进行训练,数据标注成本高昂。此外,一些零样本CIR方法虽然避免了在特定数据集上的训练,但仍然依赖于大规模图像数据集上的预训练,增加了计算负担和模型复杂度。因此,如何设计一种无需训练且具有良好检索性能的零样本CIR方法是一个挑战。
核心思路:WeiMoCIR的核心思路是利用图像和文本模态的互补性,通过加权融合的方式将参考图像和文本修改描述的信息结合起来,直接构建查询表示。该方法假设图像和文本模态可以通过简单的加权平均有效结合,从而避免了复杂的模型训练过程。此外,为了增强图像的语义信息,该方法还利用多模态大型语言模型(MLLM)生成图像描述,并将图像描述与图像特征进行加权融合,从而提高检索的准确性。
技术框架:WeiMoCIR的整体框架主要包括以下几个步骤:1) 查询表示构建:将参考图像和文本修改描述分别编码为图像特征和文本特征,然后通过加权平均的方式将两者融合,得到查询表示。2) 数据库图像表示增强:利用多模态大型语言模型(MLLM)为数据库中的每张图像生成图像描述,并将图像描述编码为文本特征。3) 数据库图像表示融合:将数据库图像的图像特征和文本特征进行加权平均,得到增强后的图像表示。4) 相似度计算与检索:计算查询表示与数据库图像表示之间的相似度,并根据相似度进行排序,返回检索结果。
关键创新:WeiMoCIR的关键创新在于提出了一种无需训练的零样本组合图像检索方法。与现有方法相比,该方法无需任何训练数据或预训练模型,可以直接应用于新的数据集。此外,该方法还利用多模态大型语言模型(MLLM)生成图像描述,并将图像描述与图像特征进行融合,从而增强了图像的语义信息,提高了检索的准确性。
关键设计:WeiMoCIR的关键设计包括:1) 加权融合权重:图像特征和文本特征的加权融合权重是影响检索性能的重要参数。论文中可能通过实验确定了最佳的权重比例。2) 多模态大型语言模型(MLLM)的选择:选择合适的MLLM对于生成高质量的图像描述至关重要。论文中可能使用了特定的MLLM,并对其性能进行了评估。3) 相似度度量方式:论文中可能使用了余弦相似度或其他相似度度量方式来计算查询表示与数据库图像表示之间的相似度。
🖼️ 关键图片
📊 实验亮点
WeiMoCIR在FashionIQ和CIRR数据集上进行了实验验证,结果表明该方法在无需任何训练的情况下,能够取得与一些监督学习方法相媲美的检索性能。具体的性能数据和对比基线需要在论文中查找。该方法简单易实现,具有很强的实用价值。
🎯 应用场景
WeiMoCIR具有广泛的应用前景,例如:电商平台的商品搜索,用户可以通过上传参考图片并添加文字描述来查找相似或修改后的商品;图像编辑工具,用户可以通过文字描述来修改参考图片,并检索与修改后图片相似的图像;智能家居领域,用户可以通过语音或文字描述来控制智能设备,并检索与设备状态相关的图像。
📄 摘要(原文)
Composed image retrieval (CIR), which formulates the query as a combination of a reference image and modified text, has emerged as a new form of image search due to its enhanced ability to capture user intent. However, training a CIR model in a supervised manner typically requires labor-intensive collection of (reference image, text modifier, target image) triplets. While existing zero-shot CIR (ZS-CIR) methods eliminate the need for training on specific downstream datasets, they still require additional pretraining on large-scale image datasets. In this paper, we introduce a training-free approach for ZS-CIR. Our approach, Weighted Modality fusion and similarity for CIR (WeiMoCIR), operates under the assumption that image and text modalities can be effectively combined using a simple weighted average. This allows the query representation to be constructed directly from the reference image and text modifier. To further enhance retrieval performance, we employ multimodal large language models (MLLMs) to generate image captions for the database images and incorporate these textual captions into the similarity computation by combining them with image information using a weighted average. Our approach is simple, easy to implement, and its effectiveness is validated through experiments on the FashionIQ and CIRR datasets. Code is available at https://github.com/whats2000/WeiMoCIR.