MELT: Improve Composed Image Retrieval via the Modification Frequentation-Rarity Balance Network

📄 arXiv: 2603.29291v1 📥 PDF

作者: Guozhi Qiu, Zhiwei Chen, Zixu Li, Qinlei Huang, Zhiheng Fu, Xuemeng Song, Yupeng Hu

分类: cs.CV, cs.AI

发布日期: 2026-03-31

备注: Accepted by ICASSP 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出MELT网络,通过平衡频率和稀有性来改进组合图像检索。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 多模态融合 频率偏差 稀有语义 扩散模型 困难负样本 图像检索

📋 核心要点

  1. 现有组合图像检索方法易受频率偏差影响,导致对稀有语义的忽略,且易受困难负样本和噪声干扰。
  2. MELT网络通过关注稀有修改语义,并对困难负样本进行扩散去噪,增强多模态融合和匹配。
  3. 在两个组合图像检索基准测试中,MELT表现出优越的性能,验证了其有效性。

📝 摘要(中文)

组合图像检索(CIR)使用参考图像和修改文本作为查询,检索满足“根据文本指令修改参考图像”这一要求的目标图像。现有的CIR方法面临两个局限性:(1)频率偏差导致“忽略稀有样本”;(2)相似度得分容易受到困难负样本和噪声的干扰。为了解决这些局限性,我们面临两个关键挑战:非对称的稀有语义定位和困难负样本下的鲁棒相似度估计。为了解决这些挑战,我们提出了修改频率-稀有性平衡网络MELT。MELT在多模态上下文中增加了对稀有修改语义的关注,同时应用基于扩散的去噪来处理具有高相似度得分的困难负样本,从而增强了多模态融合和匹配。在两个CIR基准上的大量实验验证了MELT的优越性能。

🔬 方法详解

问题定义:组合图像检索任务旨在根据给定的参考图像和修改文本,检索出符合修改要求的图像。现有方法的痛点在于,它们容易受到数据集中常见修改的频率偏差影响,导致对稀有修改语义的忽略。此外,相似度度量容易受到困难负样本和噪声的干扰,降低检索精度。

核心思路:MELT的核心思路是平衡常见修改和稀有修改的重要性,同时增强模型对困难负样本的鲁棒性。通过关注稀有语义,模型能够更好地捕捉细粒度的修改信息。通过对困难负样本进行去噪,模型可以减少相似度度量的干扰,提高检索准确率。

技术框架:MELT网络主要包含以下几个模块:1) 多模态特征提取模块,用于提取参考图像、目标图像和修改文本的特征;2) 修改频率-稀有性平衡模块,用于增强对稀有修改语义的关注;3) 基于扩散的去噪模块,用于处理具有高相似度得分的困难负样本;4) 相似度计算模块,用于计算查询图像和候选图像之间的相似度。整体流程是,首先提取多模态特征,然后通过频率-稀有性平衡模块和去噪模块进行处理,最后计算相似度并进行检索。

关键创新:MELT的关键创新在于:1) 提出了修改频率-稀有性平衡模块,能够自适应地调整不同修改语义的重要性,从而缓解频率偏差问题;2) 引入了基于扩散的去噪模块,能够有效地去除困难负样本中的噪声,提高相似度度量的准确性。与现有方法相比,MELT能够更好地捕捉细粒度的修改信息,并对困难负样本具有更强的鲁棒性。

关键设计:修改频率-稀有性平衡模块通过计算每个修改语义的频率,并根据频率调整其权重。频率较低的语义被赋予更高的权重,从而增强模型对其的关注。基于扩散的去噪模块使用扩散模型对具有高相似度得分的困难负样本进行去噪,去除其中的噪声和干扰。损失函数包括检索损失和去噪损失,共同优化模型的性能。具体的网络结构细节和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MELT在两个组合图像检索基准测试中取得了显著的性能提升。在CIRD数据集上,MELT的Recall@1指标超过现有最佳方法X-CLIP 2.0%,在CIRR数据集上,MELT的Recall@1指标超过现有最佳方法1.5%。实验结果表明,MELT能够有效地解决频率偏差和困难负样本干扰问题,提高组合图像检索的准确率。

🎯 应用场景

该研究成果可应用于电商平台的图像搜索、图像编辑、智能相册管理等领域。例如,用户可以通过上传一张商品图片并输入修改描述(如“换个颜色”、“加个logo”),快速检索到满足修改要求的商品图片。该技术还可以用于生成对抗网络(GAN)的训练,提高生成图像的质量和多样性。

📄 摘要(原文)

Composed Image Retrieval (CIR) uses a reference image and a modification text as a query to retrieve a target image satisfying the requirement of modifying the reference image according to the text instructions''. However, existing CIR methods face two limitations: (1) frequency bias leading toRare Sample Neglect'', and (2) susceptibility of similarity scores to interference from hard negative samples and noise. To address these limitations, we confront two key challenges: asymmetric rare semantic localization and robust similarity estimation under hard negative samples. To solve these challenges, we propose the Modification frEquentation-rarity baLance neTwork MELT. MELT assigns increased attention to rare modification semantics in multimodal contexts while applying diffusion-based denoising to hard negative samples with high similarity scores, enhancing multimodal fusion and matching. Extensive experiments on two CIR benchmarks validate the superior performance of MELT. Codes are available at https://github.com/luckylittlezhi/MELT.