Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval

📄 arXiv: 2604.19386v1 📥 PDF

作者: Zhiheng Fu, Yupeng Hu, Qianyun Yang, Shiqi Zhang, Zhiwei Chen, Zixu Li

分类: cs.CV

发布日期: 2026-04-21


💡 一句话要点

提出Air-Know,解决Composed Image Retrieval中的噪声三元组对应问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Composed Image Retrieval 多模态学习 噪声鲁棒性 知识内化 大型语言模型

📋 核心要点

  1. Composed Image Retrieval面临噪声三元组对应问题,现有方法依赖的小损失假设失效,导致表征污染。
  2. Air-Know采用“专家-代理-分流”范式,利用MLLM构建高精度锚点数据集,并引导代理学习专家知识。
  3. 实验表明,Air-Know在噪声环境下显著优于现有方法,并在传统CIR中具有竞争力。

📝 摘要(中文)

Composed Image Retrieval (CIR) 因其灵活的多模态查询方式而备受关注,但其发展受到噪声三元组对应 (NTC) 问题的严重制约。现有鲁棒学习方法大多依赖于“小损失假设”,但NTC中独特的语义模糊性(如“部分匹配”)使该假设失效,导致不可靠的噪声识别。这使得模型陷入学习器与仲裁器相互依赖的恶性循环,最终导致灾难性的“表征污染”。为了解决这一关键挑战,我们提出了一种新颖的“专家-代理-分流”解耦范式,名为Air-Know (仲裁器校准的知识内化鲁棒网络)。Air-Know包含三个核心模块:(1)外部先验仲裁 (EPA),它利用多模态大型语言模型 (MLLM) 作为离线专家来构建高精度锚点数据集;(2)专家知识内化 (EKI),它有效地引导轻量级代理“仲裁器”来内化专家的判别逻辑;(3)双流协调 (DSR),它利用EKI的匹配置信度来分流训练数据,实现干净的对齐流和表征反馈协调流。在多个CIR基准数据集上的大量实验表明,Air-Know在NTC设置下显著优于现有的SOTA方法,同时在传统CIR中也表现出强大的竞争力。

🔬 方法详解

问题定义:Composed Image Retrieval (CIR) 任务旨在根据文本描述检索图像。噪声三元组对应 (NTC) 问题指的是训练数据中存在大量不正确的图像-文本匹配关系,这些噪声会误导模型学习,导致性能下降。现有方法通常基于“小损失假设”,即噪声样本的损失值应该较小,但由于CIR中存在部分匹配等语义模糊性,该假设不再成立,模型无法准确识别噪声。

核心思路:Air-Know的核心思路是解耦学习器和仲裁器,避免它们陷入相互依赖的恶性循环。具体来说,利用外部专家(MLLM)提供高质量的先验知识,并将其内化到轻量级的代理仲裁器中。然后,利用仲裁器的置信度来分流训练数据,从而实现更鲁棒的学习。

技术框架:Air-Know包含三个主要模块: 1. 外部先验仲裁 (EPA):使用多模态大型语言模型 (MLLM) 作为离线专家,为每个文本描述生成高质量的候选图像,构建高精度锚点数据集。 2. 专家知识内化 (EKI):训练一个轻量级的代理“仲裁器”,使其学习专家的判别逻辑。仲裁器接收图像和文本描述作为输入,输出匹配置信度。 3. 双流协调 (DSR):根据EKI的匹配置信度,将训练数据分流到两个不同的流中:干净的对齐流和表征反馈协调流。干净的对齐流用于学习准确的图像-文本对齐关系,而表征反馈协调流用于纠正噪声样本的影响。

关键创新:Air-Know的关键创新在于“专家-代理-分流”的解耦范式。与现有方法不同,Air-Know不依赖于“小损失假设”,而是利用外部专家提供高质量的先验知识,并将其内化到代理仲裁器中。这种方法可以更准确地识别和处理噪声样本,从而提高模型的鲁棒性。

关键设计: * EPA:使用预训练的MLLM(例如BLIP-2)作为专家,通过prompt engineering生成高质量的候选图像。 * EKI:使用轻量级的Transformer网络作为代理仲裁器,并使用对比学习损失来训练它,使其能够区分正样本和负样本。 * DSR:使用一个阈值来分流训练数据。置信度高于阈值的样本被分配到干净的对齐流,而置信度低于阈值的样本被分配到表征反馈协调流。表征反馈协调流使用一种特殊的损失函数来纠正噪声样本的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Air-Know在多个CIR基准数据集上取得了显著的性能提升。例如,在 challenging 的 CIRR 数据集上,Air-Know 的 Recall@1 指标比现有 SOTA 方法提高了超过 5%。实验结果表明,Air-Know 在噪声环境下具有更强的鲁棒性,能够有效解决 NTC 问题。

🎯 应用场景

Air-Know可应用于电商、搜索引擎等领域,提升图像检索的准确性和鲁棒性。例如,在电商场景中,用户可以通过文本描述(如“红色连衣裙,蕾丝边”)快速找到符合要求的商品。该研究还有助于提升多模态信息处理能力,为更智能的人机交互提供技术支持。

📄 摘要(原文)

Composed Image Retrieval (CIR) has attracted significant attention due to its flexible multimodal query method, yet its development is severely constrained by the Noisy Triplet Correspondence (NTC) problem. Most existing robust learning methods rely on the "small loss hypothesis", but the unique semantic ambiguity in NTC, such as "partial matching", invalidates this assumption, leading to unreliable noise identification. This entraps the model in a self dependent vicious cycle where the learner is intertwined with the arbiter, ultimately causing catastrophic "representation pollution". To address this critical challenge, we propose a novel "Expert-Proxy-Diversion" decoupling paradigm, named Air-Know (ArbIteR calibrated Knowledge iNternalizing rObust netWork). Air-Know incorporates three core modules: (1) External Prior Arbitration (EPA), which utilizes Multimodal Large Language Models (MLLMs) as an offline expert to construct a high precision anchor dataset; (2) Expert Knowledge Internalization (EKI), which efficiently guides a lightweight proxy "arbiter" to internalize the expert's discriminative logic; (3) Dual Stream Reconciliation (DSR), which leverages the EKI's matching confidence to divert the training data, achieving a clean alignment stream and a representation feedback reconciliation stream. Extensive experiments on multiple CIR benchmark datasets demonstrate that Air-Know significantly outperforms existing SOTA methods under the NTC setting, while also showing strong competitiveness in traditional CIR.