CoLLM: A Large Language Model for Composed Image Retrieval
作者: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
分类: cs.CV, cs.IR
发布日期: 2025-03-25
备注: CVPR 2025. Project page: https://collm-cvpr25.github.io/
💡 一句话要点
提出CoLLM,利用大语言模型解决组合图像检索中的数据稀缺和多模态融合难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 大语言模型 多模态融合 数据生成 对比学习
📋 核心要点
- 现有组合图像检索方法受限于数据稀缺,合成数据质量不高,且难以有效融合视觉和语言信息。
- CoLLM利用大语言模型从图像-标题对中动态生成高质量训练三元组,实现更深层次的多模态融合。
- 实验表明,CoLLM在多个基准测试中达到SOTA,并提出了新的大规模数据集MTCIR,性能提升高达15%。
📝 摘要(中文)
组合图像检索(CIR)是一项复杂的任务,旨在根据多模态查询检索图像。典型的训练数据包含参考图像、所需修改的文本描述和目标图像的三元组,获取成本高且耗时。CIR数据集的稀缺性导致了零样本方法,这些方法利用合成三元组或借助具有普遍存在的网络爬取图像-标题对的视觉-语言模型(VLMs)。然而,这些方法存在重大局限性:合成三元组受到有限的规模、缺乏多样性和不自然的修改文本的影响,而图像-标题对由于缺少三元组数据而阻碍了多模态查询的联合嵌入学习。此外,现有方法难以处理复杂和细微的修改文本,这些文本需要对视觉和语言模态进行复杂的融合和理解。我们提出了CoLLM,一个一站式框架,有效地解决了这些限制。我们的方法从图像-标题对动态生成三元组,从而无需手动注释即可进行监督训练。我们利用大型语言模型(LLM)生成参考图像和修改文本的联合嵌入,从而促进更深层次的多模态融合。此外,我们引入了Multi-Text CIR (MTCIR),一个包含3.4M样本的大规模数据集,并改进了现有的CIR基准(CIRR和Fashion-IQ),以提高评估可靠性。实验结果表明,CoLLM在多个CIR基准和设置中实现了最先进的性能。MTCIR产生了有竞争力的结果,性能提高了高达15%。我们改进的基准为CIR模型提供了更可靠的评估指标,有助于推动这一重要领域的发展。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据参考图像和文本描述的修改指令检索目标图像。现有方法面临的主要痛点是:1) 缺乏大规模高质量的训练数据,人工标注成本高昂;2) 基于合成数据的方法存在多样性不足和文本描述不自然的问题;3) 难以有效融合视觉和语言信息,特别是处理复杂和细微的修改文本时。
核心思路:CoLLM的核心思路是利用大语言模型(LLM)的强大生成能力,从易于获取的图像-标题对中动态生成高质量的训练三元组。通过LLM对参考图像和修改文本进行联合嵌入,实现更深层次的多模态融合,从而克服现有方法的局限性。
技术框架:CoLLM的整体框架包含以下几个主要阶段:1) 数据生成:利用LLM从图像-标题对生成训练三元组,包括参考图像、修改文本和目标图像;2) 特征提取:使用预训练的视觉模型(如CLIP)提取图像特征,使用LLM提取文本特征;3) 联合嵌入:将图像特征和文本特征输入到联合嵌入模块,学习图像和文本的联合表示;4) 检索:根据查询图像和文本,计算与候选图像的相似度,并返回最相似的图像。
关键创新:CoLLM最重要的技术创新点在于利用LLM动态生成训练数据,避免了人工标注的成本和合成数据的局限性。此外,通过LLM进行联合嵌入,能够更有效地融合视觉和语言信息,从而提高检索性能。与现有方法相比,CoLLM能够处理更复杂和细微的修改文本。
关键设计:CoLLM的关键设计包括:1) 使用高质量的LLM(具体模型未知)进行数据生成和文本特征提取;2) 设计合适的提示词(prompt)引导LLM生成高质量的修改文本;3) 采用对比学习损失函数,优化联合嵌入模块,使相似的图像和文本在嵌入空间中更接近;4) 引入新的大规模数据集MTCIR,并改进现有基准,以更可靠地评估CIR模型。
🖼️ 关键图片
📊 实验亮点
CoLLM在CIRR和Fashion-IQ等基准测试中取得了SOTA性能,并在MTCIR数据集上取得了高达15%的性能提升。此外,论文还改进了现有基准,提供了更可靠的评估指标。这些实验结果表明,CoLLM能够有效解决组合图像检索中的数据稀缺和多模态融合难题。
🎯 应用场景
CoLLM在电商、时尚、室内设计等领域具有广泛的应用前景。例如,用户可以通过上传一张衣服的图片,并用文字描述所需的修改(如“换个颜色”、“加个袖子”),快速检索到满足要求的商品。该研究有助于提升图像检索的准确性和用户体验,并推动多模态信息处理技术的发展。
📄 摘要(原文)
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.