INTENT: Invariance and Discrimination-aware Noise Mitigation for Robust Composed Image Retrieval
作者: Zhiwei Chen, Yupeng Hu, Zhiheng Fu, Zixu Li, Jiale Huang, Qinlei Huang, Yinwei Wei
分类: cs.CV
发布日期: 2026-04-20
备注: Accepted by AAAI 2026
💡 一句话要点
提出INTENT网络,通过解耦模态噪声提升组合图像检索的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合图像检索 噪声鲁棒性 跨模态学习 视觉不变性 因果干预 快速傅里叶变换 双目标学习
📋 核心要点
- 现有组合图像检索方法忽略了数据集中存在的跨模态对应噪声和模态固有噪声,导致检索性能下降。
- INTENT网络通过视觉不变组合模块抑制模态固有噪声,并通过双目标判别学习模块处理跨模态对应噪声。
- 在两个基准数据集上的实验表明,INTENT网络在组合图像检索任务上表现出优越的性能和鲁棒性。
📝 摘要(中文)
组合图像检索(CIR)是一项具有挑战性的图像检索任务,它基于包含参考图像和修改文本的多模态查询来检索目标图像。现有方法通常假设所有样本都正确匹配,但现实中CIR数据集不可避免地包含标注错误,导致错误匹配的三元组。本文认为CIR中的噪声可分为两类:跨模态对应噪声和模态固有噪声。前者源于跨模态的不匹配,后者源于模态内的背景干扰或与粗粒度修改标注无关的视觉因素。针对上述问题,本文提出了Invariance and discrimiNaTion-awarE Noise neTwork (INTENT),包含视觉不变组合和双目标判别学习两个组件,分别处理这两种噪声。前者通过快速傅里叶变换(FFT)对视觉侧进行因果干预,生成干预后的组合特征,增强视觉不变性,使模型忽略组合过程中的模态固有噪声。后者采用正负样本协同优化,构建可扩展的决策边界,根据忠诚度动态调整决策,实现鲁棒的对应关系判别。在两个广泛使用的基准数据集上的大量实验证明了INTENT的优越性和鲁棒性。
🔬 方法详解
问题定义:组合图像检索(CIR)任务旨在根据参考图像和修改文本检索目标图像。现有方法假设训练数据集中所有三元组(参考图像、修改文本、目标图像)都是正确匹配的,但实际数据集存在标注错误,导致噪声三元组。此外,图像模态本身也存在与文本描述无关的噪声,例如背景干扰等。这些噪声会严重影响模型的学习和泛化能力。
核心思路:INTENT网络的核心思路是将噪声分为跨模态对应噪声和模态固有噪声两类,并分别设计模块进行处理。对于模态固有噪声,通过视觉不变组合模块,使模型关注图像中与文本描述相关的特征,忽略无关信息。对于跨模态对应噪声,通过双目标判别学习模块,增强模型对正负样本的区分能力,从而提高检索的鲁棒性。
技术框架:INTENT网络主要包含两个模块:视觉不变组合模块和双目标判别学习模块。首先,视觉不变组合模块通过快速傅里叶变换(FFT)对参考图像进行处理,生成干预后的组合特征,以增强视觉不变性。然后,将处理后的视觉特征与文本特征进行融合。最后,双目标判别学习模块利用正负样本进行协同优化,构建可扩展的决策边界,实现鲁棒的对应关系判别。
关键创新:INTENT网络的关键创新在于同时考虑了跨模态对应噪声和模态固有噪声,并设计了相应的模块进行处理。视觉不变组合模块通过因果干预的方式,有效地抑制了模态固有噪声。双目标判别学习模块通过正负样本的协同优化,提高了模型对噪声数据的鲁棒性。
关键设计:视觉不变组合模块中,使用了快速傅里叶变换(FFT)对图像进行处理,通过频域分析提取图像的结构信息,并进行因果干预。双目标判别学习模块中,设计了基于忠诚度的动态决策边界,根据样本的置信度调整决策,从而提高模型的鲁棒性。损失函数方面,采用了正负样本协同优化的方式,增强模型对正负样本的区分能力。
🖼️ 关键图片
📊 实验亮点
INTENT网络在两个广泛使用的基准数据集上进行了评估,实验结果表明,INTENT网络在组合图像检索任务上取得了显著的性能提升。具体来说,INTENT在Recall@1指标上优于现有方法,证明了其在处理噪声数据方面的有效性。此外,消融实验验证了视觉不变组合模块和双目标判别学习模块的有效性。
🎯 应用场景
该研究成果可应用于电商平台的图像搜索、智能相册的图像分类与检索、以及跨模态信息检索等领域。通过提高组合图像检索的鲁棒性,可以提升用户在复杂场景下的搜索体验,并为相关应用提供更准确的检索结果。未来,该方法可以扩展到其他多模态检索任务中,例如视频检索等。
📄 摘要(原文)
Composed Image Retrieval (CIR) is a challenging image retrieval paradigm that enables to retrieve target images based on multimodal queries consisting of reference images and modification texts. Although substantial progress has been made in recent years, existing methods assume that all samples are correctly matched. However, in real-world scenarios, due to high triplet annotation costs, CIR datasets inevitably contain annotation errors, resulting in incorrectly matched triplets. To address this issue, the problem of Noisy Triplet Correspondence (NTC) has attracted growing attention. We argue that noise in CIR can be categorized into two types: cross-modal correspondence noise and modality-inherent noise. The former arises from mismatches across modalities, whereas the latter originates from intra-modal background interference or visual factors irrelevant to the coarse-grained modification annotations. However, modality-inherent noise is often overlooked, and research on cross-modal correspondence noise remains nascent. To tackle above issues, we propose the Invariance and discrimiNaTion-awarE Noise neTwork (INTENT), comprising two components: Visual Invariant Composition and Bi-Objective Discriminative Learning, specifically designed to handle the two-aspect noise. The former applies causal intervention on the visual side via Fast Fourier Transform (FFT) to generate intervened composed features, enforcing visual invariance and enabling the model to ignore modality-inherent noise during composition. The latter adopts collaborative optimization with both positive and negative samples, and constructs a scalable decision boundary that dynamically adjusts decisions based on the loyalty degree, enabling robust correspondence discrimination. Extensive experiments on two widely used benchmark datasets demonstrate the superiority and robustness of INTENT.