Scale Up Composed Image Retrieval Learning via Modification Text Generation
作者: Yinan Zhou, Yaxiong Wang, Haokun Lin, Chen Ma, Li Zhu, Zhedong Zheng
分类: cs.IR, cs.AI, cs.CV
发布日期: 2025-02-21
备注: 12 pages, 8 figures
💡 一句话要点
提出基于修改文本生成的组合图像检索学习方法,解决数据稀缺问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 修改文本生成 多模态学习 数据增强 图像检索
📋 核心要点
- 组合图像检索任务面临训练数据不足和标注成本高昂的挑战。
- 利用多模态模型生成修改文本,合成训练三元组,扩充训练数据。
- 通过预训练和微调两个阶段,提升模型在组合图像检索任务上的性能。
📝 摘要(中文)
组合图像检索(CIR)旨在通过参考图像和修改文本的组合来搜索感兴趣的图像。尽管最近取得了进展,但由于训练数据有限和费力的三元组标注过程,这项任务仍然具有挑战性。为了解决这个问题,本文提出合成训练三元组来扩充CIR问题的训练资源。具体来说,我们首先利用大规模多模态模型训练一个修改文本生成器,并在预训练和微调阶段扩展CIR学习。在预训练期间,我们利用训练好的生成器直接创建面向修改文本的合成三元组(MTST),其以图像对为条件。对于微调,我们首先合成反向修改文本,将目标图像连接回参考图像。随后,我们设计了一个两跳对齐策略,以增量方式缩小多模态对和目标图像之间的语义差距。我们首先以循环方式利用原始三元组及其反向版本学习一个隐式原型,然后将隐式原型特征与修改文本相结合,以促进与目标图像的精确对齐。大量实验验证了生成的三元组的有效性,并证实我们提出的方法在CIRR和FashionIQ基准测试中都获得了具有竞争力的召回率。
🔬 方法详解
问题定义:组合图像检索(CIR)任务旨在根据给定的参考图像和修改文本,检索出符合描述的目标图像。现有方法受限于训练数据的规模,标注三元组(参考图像、修改文本、目标图像)成本高昂,导致模型泛化能力不足。
核心思路:本文的核心思路是通过生成合成数据来扩充训练集。具体而言,利用大规模多模态模型训练一个修改文本生成器,该生成器能够根据给定的图像对生成相应的修改文本,从而自动创建大量的三元组数据。
技术框架:整体框架包含预训练和微调两个阶段。在预训练阶段,使用生成的修改文本合成三元组(MTST)进行训练。在微调阶段,首先生成反向修改文本,然后设计两跳对齐策略,逐步缩小多模态对与目标图像之间的语义差距。
关键创新:关键创新在于利用修改文本生成器自动合成训练数据,避免了人工标注的成本。此外,提出的两跳对齐策略,通过隐式原型学习和文本特征融合,更有效地对齐多模态信息和目标图像。
关键设计:在微调阶段,采用了循环一致性的训练方式,即不仅生成从参考图像到目标图像的修改文本,还生成从目标图像到参考图像的反向修改文本。通过这种方式,可以学习到更鲁棒的图像和文本之间的关系。两跳对齐策略中,首先利用原始三元组和反向三元组学习一个隐式原型,然后将该原型特征与修改文本结合,共同用于与目标图像对齐。损失函数方面,可能采用了三元组损失、对比损失等,具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CIRR和FashionIQ两个基准数据集上都取得了显著的性能提升。具体提升幅度未知,但论文强调了该方法在两个数据集上都获得了具有竞争力的召回率,验证了生成三元组的有效性。
🎯 应用场景
该研究成果可应用于电商平台的图像搜索、服装搭配推荐、室内设计等领域。用户可以通过上传一张参考图片并输入修改描述,快速找到符合要求的商品或设计方案,提升用户体验和搜索效率。未来,该技术有望扩展到更多多模态检索场景,例如视频检索、音频检索等。
📄 摘要(原文)
Composed Image Retrieval (CIR) aims to search an image of interest using a combination of a reference image and modification text as the query. Despite recent advancements, this task remains challenging due to limited training data and laborious triplet annotation processes. To address this issue, this paper proposes to synthesize the training triplets to augment the training resource for the CIR problem. Specifically, we commence by training a modification text generator exploiting large-scale multimodal models and scale up the CIR learning throughout both the pretraining and fine-tuning stages. During pretraining, we leverage the trained generator to directly create Modification Text-oriented Synthetic Triplets(MTST) conditioned on pairs of images. For fine-tuning, we first synthesize reverse modification text to connect the target image back to the reference image. Subsequently, we devise a two-hop alignment strategy to incrementally close the semantic gap between the multimodal pair and the target image. We initially learn an implicit prototype utilizing both the original triplet and its reversed version in a cycle manner, followed by combining the implicit prototype feature with the modification text to facilitate accurate alignment with the target image. Extensive experiments validate the efficacy of the generated triplets and confirm that our proposed methodology attains competitive recall on both the CIRR and FashionIQ benchmarks.