HINT: Composed Image Retrieval with Dual-path Compositional Contextualized Network
作者: Mingyu Zhang, Zixu Li, Zhiwei Chen, Zhiheng Fu, Xiaowei Zhu, Jiajia Nie, Yinwei Wei, Yupeng Hu
分类: cs.CV
发布日期: 2026-03-27
备注: Accepted by ICASSP 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出双路组合上下文网络HINT,提升组合图像检索的匹配判别能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 跨模态学习 上下文建模 双路网络 差异放大
📋 核心要点
- 现有组合图像检索方法忽略了上下文信息,导致难以区分匹配样本,限制了检索性能。
- HINT模型通过双路结构进行上下文编码,并设计差异放大机制,增强模型对细微差别的感知能力。
- 实验结果表明,HINT模型在两个基准数据集上均取得了最优性能,验证了其有效性。
📝 摘要(中文)
组合图像检索(CIR)是一项具有挑战性的图像检索任务,旨在根据由参考图像和修改文本组成的多模态查询,从大规模图像数据库中检索与修改语义一致的目标图像。现有方法在跨模态对齐和特征融合方面取得了显著进展,但忽略了区分匹配样本的上下文信息。为了解决隐式依赖和缺乏差异放大机制这两个挑战,本文提出了一种双路组合上下文网络(HINT),该网络可以执行上下文编码并放大匹配和非匹配样本之间的相似性差异,从而提高CIR模型在复杂场景中的性能。在两个CIR基准数据集上的实验结果表明,HINT模型在所有指标上都达到了最佳性能。
🔬 方法详解
问题定义:组合图像检索(CIR)旨在根据参考图像和修改文本的组合查询,从大规模图像数据库中检索目标图像。现有方法主要集中于跨模态对齐和特征融合,但忽略了上下文信息在区分匹配和非匹配样本中的重要作用。这种忽略导致模型难以捕捉细微的语义差异,尤其是在复杂场景下,从而限制了检索性能。
核心思路:HINT的核心思路是通过引入上下文信息来增强模型对图像和文本之间关系的理解,并设计一种差异放大机制,以更有效地区分匹配和非匹配样本。具体来说,模型通过双路结构分别处理图像和文本,并在编码过程中融入上下文信息。此外,模型还设计了一种损失函数,旨在放大匹配样本和非匹配样本之间的相似度差异。
技术框架:HINT模型采用双路结构,分别处理参考图像和修改文本。图像路径使用卷积神经网络(CNN)提取视觉特征,文本路径使用循环神经网络(RNN)或Transformer提取文本特征。然后,模型通过注意力机制将图像和文本特征进行融合,得到组合查询的表示。为了融入上下文信息,模型在编码过程中使用了上下文模块,该模块可以捕捉图像和文本之间的依赖关系。最后,模型使用相似度度量函数计算查询表示和候选图像表示之间的相似度,并根据相似度进行排序。
关键创新:HINT模型的主要创新在于:1) 引入了双路组合上下文网络,能够有效地捕捉图像和文本之间的上下文信息;2) 设计了一种差异放大机制,可以更有效地区分匹配和非匹配样本。这种差异放大机制通过特定的损失函数实现,该损失函数旨在增大匹配样本的相似度,同时减小非匹配样本的相似度。
关键设计:HINT模型的关键设计包括:1) 上下文模块的具体实现,例如使用Transformer或图神经网络来建模图像和文本之间的依赖关系;2) 差异放大损失函数的具体形式,例如使用Triplet Loss或Contrastive Loss,并对其进行修改以增强差异放大效果;3) 双路结构的具体参数设置,例如CNN和RNN/Transformer的层数、隐藏单元数等。
🖼️ 关键图片
📊 实验亮点
HINT模型在两个CIR基准数据集上取得了最优性能。在Compositional-Fashion数据集上,HINT模型在R@1指标上超过了现有最佳方法约3%。在MIT-Adobe Composite Dataset (MIT-Adobe)数据集上,HINT模型也取得了显著的性能提升,验证了其在复杂场景下的有效性。
🎯 应用场景
HINT模型可应用于电商平台的图像搜索、智能相册的图像管理、以及安防领域的图像检索等场景。例如,用户可以通过上传一张参考图像并输入修改描述(如“红色连衣裙”)来快速找到符合要求的商品。该研究有助于提升图像检索的准确性和用户体验,并为相关领域的发展提供技术支持。
📄 摘要(原文)
Composed Image Retrieval (CIR) is a challenging image retrieval paradigm. It aims to retrieve target images from large-scale image databases that are consistent with the modification semantics, based on a multimodal query composed of a reference image and modification text. Although existing methods have made significant progress in cross-modal alignment and feature fusion, a key flaw remains: the neglect of contextual information in discriminating matching samples. However, addressing this limitation is not an easy task due to two challenges: 1) implicit dependencies and 2) the lack of a differential amplification mechanism. To address these challenges, we propose a dual-patH composItional coNtextualized neTwork (HINT), which can perform contextualized encoding and amplify the similarity differences between matching and non-matching samples, thus improving the upper performance of CIR models in complex scenarios. Our HINT model achieves optimal performance on all metrics across two CIR benchmark datasets, demonstrating the superiority of our HINT model. Codes are available at https://github.com/zh-mingyu/HINT.