HABIT: Chrono-Synergia Robust Progressive Learning Framework for Composed Image Retrieval

📄 arXiv: 2604.18037v1 📥 PDF

作者: Zixu Li, Yupeng Hu, Zhiwei Chen, Shiqi Zhang, Qinlei Huang, Zhiheng Fu, Yinwei Wei

分类: cs.CV

发布日期: 2026-04-20

备注: Accepted by AAAI 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出HABIT框架,解决Composed Image Retrieval中噪声三元组对应问题,提升检索鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Composed Image Retrieval 图像检索 噪声鲁棒性 渐进学习 互知识估计 双一致性学习 多模态学习

📋 核心要点

  1. Composed Image Retrieval面临噪声三元组对应问题,标注成本高且主观性强,影响模型性能。
  2. HABIT框架通过互知识估计和双一致性渐进学习,识别干净样本并模拟人类习惯形成,提升模型鲁棒性。
  3. 在标准CIR数据集上,HABIT在不同噪声比例下显著优于现有方法,展现出更强的鲁棒性和检索性能。

📝 摘要(中文)

Composed Image Retrieval (CIR) 是一种灵活的图像检索范式,它允许用户通过由参考图像和修改文本组成的多模态查询来精确定位目标图像。尽管此任务在个性化搜索和推荐系统中展现出良好的应用前景,但它在实际场景中遇到了一个严峻的挑战,即噪声三元组对应 (NTC) 问题。这个问题主要源于标注三元组数据的高成本和主观性。为了解决这个问题,我们确定了两个核心挑战:精确估计组合语义差异和对修改差异的充分渐进适应。为了应对这些挑战,我们提出了一个 cHrono-synergiA roBust progressIve learning framework for composed image reTrieval (HABIT),它由两个核心模块组成。首先,互知识估计模块通过计算组合特征和目标图像之间互信息的转移率来量化样本的清洁度,从而有效地识别与预期修改语义对齐的干净样本。其次,双一致性渐进学习模块引入了历史模型和当前模型之间的协作机制,模拟人类习惯的形成,以保留良好的习惯并校准不良的习惯,最终实现在 NTC 存在下的鲁棒学习。在两个标准 CIR 数据集上进行的大量实验表明,HABIT 在各种噪声比率下显着优于大多数方法,表现出卓越的鲁棒性和检索性能。代码可在 https://github.com/Lee-zixu/HABIT 获取。

🔬 方法详解

问题定义:Composed Image Retrieval (CIR) 任务旨在根据给定的参考图像和文本描述,检索出符合修改意图的目标图像。现有的 CIR 方法在训练数据存在噪声(即参考图像、文本描述和目标图像三者不一致)时,性能会显著下降。这种噪声通常被称为噪声三元组对应 (NTC) 问题,其主要痛点在于标注成本高昂且主观性强,难以获得高质量的训练数据。

核心思路:HABIT 框架的核心思路是,通过量化样本的清洁度来识别高质量的训练样本,并利用渐进学习的方式,模拟人类习惯的形成,从而在噪声数据中学习到鲁棒的图像检索模型。框架通过互知识估计模块来评估样本的清洁度,并使用双一致性渐进学习模块来稳定学习过程,避免受到噪声样本的干扰。

技术框架:HABIT 框架主要包含两个核心模块:互知识估计模块 (Mutual Knowledge Estimation Module) 和双一致性渐进学习模块 (Dual-consistency Progressive Learning Module)。首先,互知识估计模块计算组合特征和目标图像之间互信息的转移率,以此来量化样本的清洁度。然后,双一致性渐进学习模块利用历史模型和当前模型之间的协作机制,模拟人类习惯的形成,从而保留好的习惯并校准坏的习惯。

关键创新:HABIT 框架的关键创新在于:1) 提出了互知识估计模块,能够有效地识别与预期修改语义对齐的干净样本;2) 提出了双一致性渐进学习模块,通过历史模型和当前模型的协作,模拟人类习惯的形成,从而提高模型在噪声环境下的鲁棒性。与现有方法相比,HABIT 能够更有效地利用噪声数据中的信息,并避免受到噪声样本的负面影响。

关键设计:互知识估计模块通过计算组合特征和目标图像之间互信息的转移率来量化样本的清洁度,转移率越高,表示样本越干净。双一致性渐进学习模块使用历史模型和当前模型之间的加权平均来更新模型参数,权重系数用于控制历史模型和当前模型的影响程度。损失函数的设计旨在鼓励当前模型与历史模型保持一致,并惩罚与噪声样本不一致的预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HABIT 在两个标准 CIR 数据集上,在不同噪声比例下均显著优于现有方法。例如,在某个数据集上,当噪声比例为 50% 时,HABIT 的检索性能比最佳基线方法提升了 5% 以上。这表明 HABIT 具有更强的鲁棒性和更好的检索性能。

🎯 应用场景

该研究成果可应用于个性化搜索、电商推荐、图像编辑等领域。例如,用户可以通过上传一张参考图片并输入修改描述(如“把衣服换成红色”),快速检索到符合要求的商品或生成修改后的图像。该技术有助于提升用户体验,并为相关应用带来更高的效率和准确性。

📄 摘要(原文)

Composed Image Retrieval (CIR) is a flexible image retrieval paradigm that enables users to accurately locate the target image through a multimodal query composed of a reference image and modification text. Although this task has demonstrated promising applications in personalized search and recommendation systems, it encounters a severe challenge in practical scenarios known as the Noise Triplet Correspondence (NTC) problem. This issue primarily arises from the high cost and subjectivity involved in annotating triplet data. To address this problem, we identify two central challenges: the precise estimation of composed semantic discrepancy and the insufficient progressive adaptation to modification discrepancy. To tackle these challenges, we propose a cHrono-synergiA roBust progressIve learning framework for composed image reTrieval (HABIT), which consists of two core modules. First, the Mutual Knowledge Estimation Module quantifies sample cleanliness by calculating the Transition Rate of mutual information between the composed feature and the target image, thereby effectively identifying clean samples that align with the intended modification semantics. Second, the Dual-consistency Progressive Learning Module introduces a collaborative mechanism between the historical and current models, simulating human habit formation to retain good habits and calibrate bad habits, ultimately enabling robust learning under the presence of NTC. Extensive experiments conducted on two standard CIR datasets demonstrate that HABIT significantly outperforms most methods under various noise ratios, exhibiting superior robustness and retrieval performance. Codes are available at https://github.com/Lee-zixu/HABIT