Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning
作者: Man Liu, Huihui Bai, Feng Li, Chunjie Zhang, Yunchao Wei, Tat-Seng Chua, Yao Zhao
分类: cs.CV
发布日期: 2024-06-05 (更新: 2025-03-09)
备注: Accepted by AAAI 2025
💡 一句话要点
提出AENet,通过语义增强视觉提示提升零样本学习的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 提示学习 视觉提示 语义增强 知识迁移
📋 核心要点
- 现有零样本学习方法在已见类别上固定地学习视觉提示,导致模型过度关注训练时的视觉特征,泛化能力受限。
- AENet通过将语义信息融入视觉提示,提取语义增强的提示,从而丰富视觉表示,提升知识迁移能力。
- 实验结果表明,AENet在三个基准数据集上超越了现有的最先进的零样本学习方法,证明了其有效性。
📝 摘要(中文)
零样本学习(ZSL)旨在将已见类别的知识迁移到识别未见类别,这主要依赖于图像和属性token之间的语义-视觉交互。最近,提示学习在ZSL中崭露头角,并显示出巨大的潜力,因为它允许将不同的视觉概念零样本迁移到下游任务。然而,当前的方法探索的是在已见领域对可学习提示的固定适应,这使得它们过度强调训练期间观察到的主要视觉特征,从而限制了它们对未见领域的泛化能力。在这项工作中,我们提出了AENet,它将语义信息赋予视觉提示,以提取语义增强的提示,从而丰富视觉表示,从而实现有效的ZSL知识转移。AENet包括两个关键步骤:1)探索视觉和属性模态的概念协调token,基于代表一致的视觉-语义概念的模态共享token;2)通过具有属性一致性监督的视觉残差细化单元产生语义增强的提示。这些进一步与主要视觉特征集成,以关注语义相关信息以进行视觉增强,从而增强可转移能力。在三个基准上的实验结果表明,我们的AENet优于现有的最先进的ZSL方法。代码在补充材料的zip文件中提供。
🔬 方法详解
问题定义:零样本学习旨在利用已见类别的知识来识别未见类别。现有方法,特别是基于提示学习的方法,在训练阶段学习固定的视觉提示,这导致模型过度拟合已见类别的视觉特征,从而在未见类别上泛化能力较差。痛点在于如何使模型能够更好地利用语义信息,从而提升视觉表示的泛化能力。
核心思路:AENet的核心思路是将语义信息融入到视觉提示中,从而生成语义增强的视觉提示。通过这种方式,模型不仅关注主要的视觉特征,还能关注与语义相关的视觉信息,从而提升视觉表示的表达能力和泛化能力。这样设计的目的是为了让模型在未见类别上也能更好地利用已见类别的知识。
技术框架:AENet主要包含两个关键步骤:1) 探索概念协调的视觉和属性token,基于模态共享token,该token代表一致的视觉-语义概念;2) 通过具有属性一致性监督的视觉残差细化单元生成语义增强的提示。整体流程是首先提取视觉和属性特征,然后利用模态共享token进行概念协调,最后通过视觉残差细化单元生成语义增强的提示,并将其与原始视觉特征融合,用于最终的分类。
关键创新:AENet的关键创新在于将语义信息融入到视觉提示中,从而生成语义增强的视觉提示。与现有方法不同,AENet不是简单地学习固定的视觉提示,而是利用属性信息来指导视觉提示的学习,从而使模型能够更好地关注与语义相关的视觉信息。这种方法能够有效地提升视觉表示的表达能力和泛化能力。
关键设计:AENet的关键设计包括:1) 模态共享token,用于连接视觉和属性模态,实现概念协调;2) 视觉残差细化单元,用于生成语义增强的提示;3) 属性一致性监督,用于约束视觉残差细化单元的学习过程,确保生成的提示与属性信息一致。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
AENet在三个基准数据集上取得了显著的性能提升,超越了现有的最先进的零样本学习方法。具体的性能数据和提升幅度在论文中进行了详细的展示(未知)。这些实验结果表明,AENet能够有效地利用语义信息来增强视觉表示,从而提升零样本学习的泛化能力。代码已开源,方便其他研究者进行复现和改进。
🎯 应用场景
AENet在零样本学习领域具有广泛的应用前景,例如图像分类、目标检测和图像检索等。该方法可以应用于缺乏标注数据的场景,例如新物种识别、罕见疾病诊断等。通过将已见类别的知识迁移到未见类别,AENet可以有效地解决标注数据不足的问题,降低模型训练的成本,并提升模型的泛化能力。未来,该方法可以进一步扩展到其他领域,例如自然语言处理和语音识别等。
📄 摘要(原文)
Zero-shot learning (ZSL) endeavors to transfer knowledge from seen categories to recognize unseen categories, which mostly relies on the semantic-visual interactions between image and attribute tokens. Recently, prompt learning has emerged in ZSL and demonstrated significant potential as it allows the zero-shot transfer of diverse visual concepts to downstream tasks. However, current methods explore the fixed adaption of learnable prompt on seen domains, which makes them over-emphasize the primary visual features observed during training, limiting their generalization capabilities to unseen domains. In this work, we propose AENet, which endows semantic information into the visual prompt to distill semantic-enhanced prompt for visual representation enrichment, enabling effective knowledge transfer for ZSL. AENet comprises two key steps: 1) exploring the concept-harmonized tokens for the visual and attribute modalities, grounded on the modal-sharing token that represents consistent visual-semantic concepts; and 2) yielding semantic-enhanced prompt via the visual residual refinement unit with attribute consistency supervision. These are further integrated with primary visual features to attend to semantic-related information for visual enhancement, thus strengthening transferable ability. Experimental results on three benchmarks show that our AENet outperforms existing state-of-the-art ZSL methods. The code is provided in the zip file of supplementary materials.