WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
作者: Xudong Yan, Songhe Feng, Jiaxin Wang, Xin Su, Yi Jin
分类: cs.CV
发布日期: 2026-02-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出WARM-CAT,通过测试时知识累积解决组合零样本学习中的分布偏移问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组合零样本学习 测试时学习 知识累积 多模态学习 原型学习
📋 核心要点
- 现有组合零样本学习方法在测试时面临标签空间分布偏移,导致性能下降。
- WARM-CAT通过累积文本和视觉模态的综合知识,自适应更新多模态原型来解决分布偏移问题。
- 实验表明,该方法在四个基准数据集上取得了SOTA性能,并提出了新的C-Fashion数据集。
📝 摘要(中文)
组合零样本学习(CZSL)旨在基于从已知组合中学习到的知识来识别新的属性-对象组合。现有方法由于测试时标签空间分布偏移而导致性能下降,这种偏移源于包含由属性和对象重新组合而成的未知组合。为了克服这一挑战,我们提出了一种新方法,该方法从无监督数据中累积文本和视觉模态的综合知识,以在测试时更新多模态原型。在此基础上,我们进一步设计了一种自适应更新权重来控制原型调整的程度,使模型能够在测试期间灵活地适应分布偏移。此外,引入了一个动态优先级队列,用于存储高置信度图像,以便从历史图像中获取视觉原型以进行推理。由于模型在测试期间倾向于偏向已存储在队列中的组合,因此我们通过使用训练图像初始化队列来预热队列,以获得已知组合的视觉原型,并使用在已知和未知文本原型之间学习的映射生成未知的视觉原型。考虑到多模态知识的语义一致性,我们通过多模态协同表示学习来对齐文本和视觉原型。为了为CZSL提供更可靠的评估,我们引入了一个新的基准数据集C-Fashion,并改进了广泛使用但嘈杂的MIT-States数据集。大量实验表明,我们的方法在封闭世界和开放世界设置下的四个基准数据集上都实现了最先进的性能。源代码和数据集可在https://github.com/xud-yan/WARM-CAT 获得。
🔬 方法详解
问题定义:组合零样本学习(CZSL)旨在识别未见过的属性-对象组合。现有方法的痛点在于,测试时数据分布与训练时存在显著差异,即标签空间包含训练时未见过的组合,导致模型泛化能力下降。这种分布偏移是CZSL的核心挑战。
核心思路:WARM-CAT的核心思路是在测试阶段,利用无监督数据持续学习和积累知识,动态调整模型的多模态原型,从而适应测试时的数据分布。通过维护一个动态优先级队列,存储高置信度的图像,并结合文本信息,不断优化视觉原型,提升模型对未知组合的识别能力。
技术框架:WARM-CAT包含以下主要模块:1) 多模态原型学习:学习已知组合的文本和视觉原型。2) 测试时知识累积:利用无监督数据,通过自适应更新权重调整原型。3) 动态优先级队列:存储高置信度图像,用于视觉原型的更新和推理。4) 多模态协同表示学习:对齐文本和视觉原型,保证语义一致性。整体流程是在测试阶段,模型首先利用已有的原型进行预测,然后根据预测结果和无监督数据,更新原型和优先级队列,从而不断提升性能。
关键创新:WARM-CAT的关键创新在于测试时知识累积和自适应原型更新。与传统方法不同,WARM-CAT不是简单地使用训练好的模型进行预测,而是在测试阶段持续学习,利用无监督数据来适应新的数据分布。自适应更新权重能够控制原型调整的程度,避免过度拟合测试数据。动态优先级队列则能够有效地利用历史信息,提升模型的鲁棒性。
关键设计:WARM-CAT的关键设计包括:1) 自适应更新权重:根据预测置信度动态调整原型更新的幅度。2) 动态优先级队列:使用置信度作为优先级,存储和更新视觉原型。3) 多模态协同表示学习:通过损失函数约束文本和视觉原型,保证语义一致性。具体而言,损失函数可能包含对比损失、三元组损失等,用于拉近语义相似的原型,推远语义不同的原型。
🖼️ 关键图片
📊 实验亮点
WARM-CAT在四个基准数据集上取得了SOTA性能。例如,在C-Fashion数据集上,相较于现有方法,性能提升显著。此外,该方法在开放世界设定下也表现出良好的泛化能力,证明了其在实际应用中的潜力。论文还提出了新的C-Fashion数据集,为CZSL研究提供了更可靠的评估基准。
🎯 应用场景
WARM-CAT在图像识别、智能零售、内容推荐等领域具有广泛的应用前景。例如,在电商平台,可以识别用户上传的包含新属性-对象组合的商品图片,提升商品识别的准确率和效率。此外,该方法还可以应用于机器人视觉,帮助机器人识别和理解复杂场景,从而更好地完成任务。
📄 摘要(原文)
Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available at https://github.com/xud-yan/WARM-CAT .