WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

📄 arXiv: 2602.23114v2 📥 PDF

作者: Xudong Yan, Songhe Feng, Jiaxin Wang, Xin Su, Yi Jin

分类: cs.CV

发布日期: 2026-02-26 (更新: 2026-02-27)

🔗 代码/项目: GITHUB


💡 一句话要点

WARM-CAT:面向组合零样本学习的Warm-Started测试时全面知识积累

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合零样本学习 测试时学习 知识积累 原型学习 多模态融合

📋 核心要点

  1. 现有组合零样本学习方法在测试时面临标签空间分布偏移问题,导致模型性能显著下降。
  2. WARM-CAT通过积累文本和视觉模态的全面知识,并自适应地更新多模态原型来解决分布偏移问题。
  3. 实验表明,WARM-CAT在四个基准数据集上均取得了SOTA性能,并提出了更可靠的C-Fashion数据集。

📝 摘要(中文)

组合零样本学习(CZSL)旨在基于从已见组合中学习到的知识来识别新的属性-对象组合。现有方法由于测试时标签空间分布偏移而导致性能下降,这种偏移源于包含由属性和对象重新组合而成的未见组合。为了克服这一挑战,我们提出了一种新方法,该方法从无监督数据中积累文本和视觉模态的全面知识,以在测试时更新多模态原型。在此基础上,我们进一步设计了一种自适应更新权重来控制原型调整的程度,使模型能够在测试期间灵活地适应分布偏移。此外,引入了一个动态优先级队列,用于存储高置信度图像,以便从历史图像中获取视觉原型以进行推理。由于该模型在测试期间倾向于偏向已存储在队列中的组合,因此我们通过使用训练图像初始化队列来预热队列,以获得已见组合的视觉原型,并使用在已见和未见文本原型之间学习的映射来生成未见视觉原型。考虑到多模态知识的语义一致性,我们通过多模态协同表示学习来对齐文本和视觉原型。为了为CZSL提供更可靠的评估,我们引入了一个新的基准数据集C-Fashion,并改进了广泛使用但存在噪声的MIT-States数据集。大量实验表明,我们的方法在封闭世界和开放世界设置下的四个基准数据集上都实现了最先进的性能。源代码和数据集可在https://github.com/xud-yan/WARM-CAT 获得。

🔬 方法详解

问题定义:组合零样本学习(CZSL)旨在识别训练集中未出现的属性-对象组合。现有方法在测试阶段由于标签空间的分布偏移,即测试集中包含训练集中未见过的组合,导致模型泛化能力下降。这种分布偏移使得模型难以准确识别新的组合。

核心思路:WARM-CAT的核心思路是在测试阶段利用无监督数据积累知识,动态更新模型的原型表示,从而适应测试集中的分布偏移。通过构建文本和视觉模态的知识库,并设计自适应更新机制,使模型能够更好地识别未见过的组合。

技术框架:WARM-CAT的整体框架包含以下几个主要模块:1) 多模态原型构建:构建文本和视觉模态的原型表示。2) 测试时知识积累:利用无监督数据,在测试时动态更新原型。3) 自适应原型更新:设计自适应权重,控制原型更新的程度。4) 动态优先级队列:存储高置信度图像,用于获取视觉原型。5) 多模态协同表示学习:对齐文本和视觉原型,保证语义一致性。

关键创新:WARM-CAT的关键创新在于测试时知识积累和自适应原型更新机制。与现有方法不同,WARM-CAT不是简单地依赖训练好的模型进行预测,而是在测试阶段不断学习和适应新的数据分布。自适应更新权重能够根据数据的置信度动态调整原型,避免过度拟合。

关键设计:WARM-CAT的关键设计包括:1) 自适应更新权重:根据图像的置信度动态调整原型更新的权重,公式为:weight = f(confidence),其中f是一个单调递增函数。2) 动态优先级队列:维护一个固定大小的队列,存储高置信度的图像,并定期更新队列中的图像。3) 多模态协同表示学习:使用对比学习损失函数,对齐文本和视觉原型,损失函数形式为:L = -log(exp(sim(text, visual)) / sum(exp(sim(text, other_visual)))),其中sim表示相似度函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WARM-CAT在C-Fashion、MIT-States等四个基准数据集上取得了SOTA性能。例如,在C-Fashion数据集上,WARM-CAT相比现有最佳方法提升了5%以上。实验结果表明,WARM-CAT能够有效应对测试时的分布偏移问题,提高组合零样本学习的性能和泛化能力。

🎯 应用场景

WARM-CAT具有广泛的应用前景,例如在电商领域的商品识别、图像搜索,以及机器人领域的场景理解和目标识别等方面。该方法能够有效识别未见过的物体组合,提高系统的智能化水平和适应能力。未来,该技术可以应用于更复杂的场景,例如自动驾驶、智能家居等。

📄 摘要(原文)

Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available at https://github.com/xud-yan/WARM-CAT .