Mutually Causal Semantic Distillation Network for Zero-Shot Learning
作者: Shiming Chen, Shuhuang Chen, Guo-Sen Xie, Xinge You
分类: cs.CV, cs.LG
发布日期: 2026-03-18
备注: Accepted to IJCV. arXiv admin note: text overlap with arXiv:2203.03137
💡 一句话要点
提出互因果语义蒸馏网络MSDN++,提升零样本学习的语义知识迁移能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 零样本学习 因果注意力 语义蒸馏 知识迁移 视觉特征 属性特征 互学习
📋 核心要点
- 现有零样本学习方法依赖单向注意力,难以捕捉视觉和属性特征间深层语义关联,导致知识迁移效果不佳。
- MSDN++通过互因果注意力机制,分别学习属性驱动的视觉特征和视觉驱动的属性特征,增强特征的可靠性。
- MSDN++在CUB、SUN、AWA2和FLO等数据集上取得了显著提升,达到了新的state-of-the-art性能。
📝 摘要(中文)
零样本学习(ZSL)旨在借助辅助信息(如属性)识别开放世界中未见过的类别。其关键在于推断已见类别中视觉特征和属性特征之间的潜在语义知识,从而实现从已见类别到未见类别的理想语义知识迁移。现有方法通常以弱监督方式利用单向注意力学习虚假且有限的潜在语义表示,无法有效发现视觉和属性特征之间的内在语义知识(例如,属性语义)。为了解决上述挑战,我们提出了一种互因果语义蒸馏网络(MSDN++),用于提取ZSL的内在和充分的语义表示。MSDN++由一个属性到视觉的因果注意力子网络(学习基于属性的视觉特征)和一个视觉到属性的因果注意力子网络(学习基于视觉的属性特征)组成。因果注意力鼓励两个子网络学习因果视觉-属性关联,以通过因果视觉/属性学习来表示可靠的特征。在语义蒸馏损失的指导下,两个互注意力子网络在整个训练过程中协同学习并相互教导。在三个广泛使用的基准数据集(如CUB、SUN、AWA2和FLO)上的大量实验表明,我们的MSDN++优于强大的基线,从而实现了新的最先进的性能。
🔬 方法详解
问题定义:零样本学习旨在利用已见类别的知识,识别未见类别的样本。现有方法主要痛点在于,它们依赖于单向注意力机制,无法充分挖掘视觉特征和属性特征之间的内在语义关联,导致学习到的语义表示具有局限性和虚假性,最终影响知识迁移的效果。
核心思路:MSDN++的核心思路是利用互因果注意力机制,显式地建模视觉特征和属性特征之间的因果关系。通过构建两个子网络,一个从属性到视觉,另一个从视觉到属性,互相学习和指导,从而提取更可靠和充分的语义表示。这种双向的因果关系建模有助于消除混淆因素,学习更本质的语义关联。
技术框架:MSDN++包含两个主要的子网络:属性到视觉的因果注意力子网络和视觉到属性的因果注意力子网络。这两个子网络并行工作,通过因果注意力机制学习各自的特征表示。此外,还引入了语义蒸馏损失,用于指导两个子网络进行协同学习,互相“教导”,从而提升整体的性能。整体流程是,首先输入视觉特征和属性特征,分别经过两个子网络进行特征提取,然后通过语义蒸馏损失进行优化,最终得到更鲁棒的特征表示,用于零样本分类。
关键创新:MSDN++的关键创新在于引入了互因果注意力机制和语义蒸馏损失。与现有方法中常用的单向注意力机制不同,MSDN++通过双向的因果关系建模,更全面地挖掘了视觉特征和属性特征之间的语义关联。语义蒸馏损失则促进了两个子网络之间的协同学习,进一步提升了特征表示的质量。
关键设计:MSDN++的关键设计包括:1) 因果注意力机制的具体实现方式,例如如何设计注意力权重的计算方式,以体现因果关系;2) 语义蒸馏损失的具体形式,例如如何定义两个子网络之间的“知识”差异,以及如何最小化这种差异;3) 网络结构的参数设置,例如每个子网络的层数、神经元个数等。论文中可能还涉及一些超参数的调整,例如学习率、batch size等。
🖼️ 关键图片
📊 实验亮点
MSDN++在CUB、SUN、AWA2和FLO等四个常用零样本学习数据集上均取得了显著的性能提升。例如,在AWA2数据集上,MSDN++的性能超过了现有state-of-the-art方法,取得了新的最佳结果。实验结果表明,MSDN++能够有效地提取视觉特征和属性特征之间的内在语义关联,从而提升零样本学习的性能。
🎯 应用场景
MSDN++在零样本学习领域具有广泛的应用前景,例如图像识别、目标检测、自然语言处理等。它可以应用于缺乏标注数据的场景,通过利用辅助信息实现对新类别的识别。该研究的实际价值在于降低了数据标注的成本,提高了模型的泛化能力。未来,该方法可以进一步扩展到其他领域,例如机器人、医疗诊断等。
📄 摘要(原文)
Zero-shot learning (ZSL) aims to recognize the unseen classes in the open-world guided by the side-information (e.g., attributes). Its key task is how to infer the latent semantic knowledge between visual and attribute features on seen classes, and thus conducting a desirable semantic knowledge transfer from seen classes to unseen ones. Prior works simply utilize unidirectional attention within a weakly-supervised manner to learn the spurious and limited latent semantic representations, which fail to effectively discover the intrinsic semantic knowledge (e.g., attribute semantic) between visual and attribute features. To solve the above challenges, we propose a mutually causal semantic distillation network (termed MSDN++) to distill the intrinsic and sufficient semantic representations for ZSL. MSDN++ consists of an attribute$\rightarrow$visual causal attention sub-net that learns attribute-based visual features, and a visual$\rightarrow$attribute causal attention sub-net that learns visual-based attribute features. The causal attentions encourages the two sub-nets to learn causal vision-attribute associations for representing reliable features with causal visual/attribute learning. With the guidance of semantic distillation loss, the two mutual attention sub-nets learn collaboratively and teach each other throughout the training process. Extensive experiments on three widely-used benchmark datasets (e.g., CUB, SUN, AWA2, and FLO) show that our MSDN++ yields significant improvements over the strong baselines, leading to new state-of-the-art performances.