WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
作者: Xudong Yan, Songhe Feng, Jiaxin Wang, Xin Su, Yi Jin
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出WARM-CAT,解决组合零样本学习中测试时知识积累的分布偏移问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合零样本学习 测试时适应 知识积累 多模态学习 原型学习
📋 核心要点
- 现有组合零样本学习方法在测试时面临标签空间分布偏移,导致性能下降。
- WARM-CAT通过积累文本和视觉模态的综合知识,自适应更新多模态原型来解决分布偏移问题。
- 实验表明,WARM-CAT在四个基准数据集上取得了SOTA性能,并提出了新的C-Fashion数据集。
📝 摘要(中文)
组合零样本学习(CZSL)旨在基于从已知组合中学习到的知识来识别新的属性-对象组合。现有方法由于测试时标签空间分布偏移而导致性能下降,这种偏移源于包含由属性和对象重新组合而成的未知组合。为了克服这一挑战,我们提出了一种新方法,该方法从无监督数据中积累文本和视觉模态的综合知识,以在测试时更新多模态原型。在此基础上,我们进一步设计了一种自适应更新权重来控制原型调整的程度,使模型能够在测试期间灵活地适应分布偏移。此外,引入了一个动态优先级队列,用于存储高置信度图像,以便从历史图像中获取视觉原型以进行推理。由于该模型在测试期间倾向于偏向已存储在队列中的组合,因此我们通过使用训练图像初始化队列来预热队列,以获得已知组合的视觉原型,并使用在已知和未知文本原型之间学习的映射生成未知的视觉原型。考虑到多模态知识的语义一致性,我们通过多模态协同表示学习来对齐文本和视觉原型。为了为CZSL提供更可靠的评估,我们引入了一个新的基准数据集C-Fashion,并改进了广泛使用但嘈杂的MIT-States数据集。大量实验表明,我们的方法在封闭世界和开放世界设置下的四个基准数据集上都取得了最先进的性能。
🔬 方法详解
问题定义:组合零样本学习(CZSL)旨在识别训练集中未见过的属性-对象组合。现有方法在测试阶段,由于测试数据包含大量未见过的组合,导致标签空间分布发生偏移,模型泛化能力下降,性能显著降低。如何有效利用无监督数据,缓解测试时分布偏移,是CZSL的关键挑战。
核心思路:WARM-CAT的核心思路是在测试时通过积累无监督数据中的知识,动态更新多模态原型,从而适应测试数据的分布偏移。通过自适应更新权重控制原型调整的程度,并利用动态优先级队列存储高置信度图像,以获取视觉原型。
技术框架:WARM-CAT包含以下主要模块:1) 知识积累模块:从无监督数据中提取文本和视觉特征,构建文本和视觉原型。2) 自适应原型更新模块:根据数据置信度自适应调整原型,缓解分布偏移。3) 动态优先级队列:存储高置信度图像,用于获取视觉原型。4) 多模态协同表示学习:对齐文本和视觉原型,保证语义一致性。
关键创新:WARM-CAT的关键创新在于测试时知识积累和自适应原型更新机制。不同于以往方法仅依赖训练数据学习到的知识,WARM-CAT能够利用无监督数据动态调整模型,更好地适应测试数据的分布。自适应更新权重和动态优先级队列的设计,进一步提升了模型的鲁棒性和泛化能力。
关键设计:WARM-CAT的关键设计包括:1) 自适应更新权重:根据图像的置信度动态调整原型更新的幅度,避免过度拟合噪声数据。2) 动态优先级队列:维护一个固定大小的队列,存储高置信度图像,并定期更新。3) 多模态协同表示学习:使用对比学习损失函数,对齐文本和视觉原型,保证语义一致性。
🖼️ 关键图片
📊 实验亮点
WARM-CAT在四个基准数据集(MIT-States, C-Fashion, UT-Zappos50K, AwA2)上取得了SOTA性能。例如,在C-Fashion数据集上,相比现有最佳方法,WARM-CAT在closed-world设置下提升了约5%,在open-world设置下提升了约3%。此外,新提出的C-Fashion数据集为CZSL研究提供了更可靠的评估基准。
🎯 应用场景
WARM-CAT在图像识别、智能零售、时尚搭配等领域具有广泛的应用前景。例如,在智能零售中,可以识别顾客穿着的服装属性和对象,提供个性化的推荐。在时尚搭配中,可以根据用户输入的属性和对象,生成搭配建议。该研究有助于提升零样本学习在实际场景中的应用效果。
📄 摘要(原文)
Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available atthis https URL.