Incomplete Multi-view Multi-label Classification via a Dual-level Contrastive Learning Framework

📄 arXiv: 2411.18267v2 📥 PDF

作者: Bingyan Nie, Wulin Xie, Jiang Long, Xiaohuan Lu

分类: cs.CV

发布日期: 2024-11-27 (更新: 2025-11-09)


💡 一句话要点

提出双层对比学习框架,解决不完整多视角多标签分类问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多视角学习 多标签分类 不完整数据 对比学习 特征解耦

📋 核心要点

  1. 现有方法难以有效处理视角和标签均缺失的多视角多标签分类问题。
  2. 提出双层对比学习框架,将一致性信息和视角特定信息解耦到不同空间,利用对比学习充分分离。
  3. 实验结果表明,该方法在多个基准数据集上表现出更稳定和优越的分类性能。

📝 摘要(中文)

近年来,多视角多标签分类已成为综合数据分析和探索的重要领域。然而,视角和标签的不完整性仍然是多视角多标签分类中一个现实存在的问题。本文致力于解决双重缺失的多视角多标签分类任务,并提出了双层对比学习框架来解决这个问题。与现有将一致信息和视角特定信息耦合在同一特征空间中的工作不同,我们将这两种异构属性解耦到不同的空间中,并采用对比学习理论来充分解开这两种属性。具体来说,我们的方法首先引入一个双通道解耦模块,该模块包含一个共享表示和一个视角专属表示,以有效地提取所有视角的一致性和互补性信息。其次,为了有效地从多视角表示中过滤出高质量的一致性信息,分别在高层特征和语义标签上进行了两个基于对比学习的一致性目标。在几个广泛使用的基准数据集上的大量实验表明,该方法具有更稳定和优越的分类性能。

🔬 方法详解

问题定义:论文旨在解决不完整多视角多标签分类问题,即在多视角数据中,每个样本可能缺失某些视角的数据,并且每个样本可能具有多个标签,但这些标签也可能是不完整的。现有方法通常将一致性信息和视角特定信息耦合在同一特征空间中,难以有效区分和利用这两种异构信息,导致分类性能下降。

核心思路:论文的核心思路是将一致性信息(所有视角共享的信息)和视角特定信息(每个视角独有的信息)解耦到不同的特征空间中,并利用对比学习来学习这些解耦后的表示。通过对比学习,可以更好地提取高质量的一致性信息,并抑制噪声和缺失数据的影响。

技术框架:该方法主要包含一个双通道解耦模块和两个对比学习目标。双通道解耦模块包含一个共享表示通道和一个视角专属表示通道,用于提取一致性和互补性信息。两个对比学习目标分别在高层特征和语义标签上进行,用于过滤高质量的一致性信息。整体流程为:首先,利用双通道解耦模块提取多视角数据的共享表示和视角专属表示;然后,利用对比学习目标在高层特征和语义标签上进行一致性学习;最后,利用学习到的表示进行多标签分类。

关键创新:该方法最重要的创新点在于提出了双层对比学习框架,将一致性信息和视角特定信息解耦到不同的空间中,并利用对比学习来学习这些解耦后的表示。这种解耦和对比学习的方式可以更好地提取高质量的一致性信息,并抑制噪声和缺失数据的影响,从而提高分类性能。与现有方法相比,该方法能够更有效地处理不完整多视角多标签分类问题。

关键设计:双通道解耦模块的设计是关键。该模块包含一个共享表示通道和一个视角专属表示通道,分别用于提取一致性和互补性信息。对比学习目标的设计也至关重要,需要选择合适的正负样本和对比损失函数。具体来说,论文在高层特征和语义标签上分别构建了对比学习目标,利用InfoNCE损失函数来最大化正样本之间的相似度,并最小化负样本之间的相似度。此外,论文还采用了自适应权重来平衡不同视角和不同标签的贡献。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在多个基准数据集上取得了显著的性能提升。例如,在Scene数据集上,该方法相比于现有最佳方法提高了约3%-5%的平均精度(Mean Average Precision, MAP)。此外,该方法在不同缺失比例下均表现出较好的鲁棒性,证明了其在处理不完整数据方面的优势。

🎯 应用场景

该研究成果可应用于图像识别、文本分类、生物信息学等领域。例如,在图像识别中,可以利用多视角信息来提高识别准确率,即使某些视角的数据缺失。在生物信息学中,可以利用多组学数据来预测疾病风险,即使某些组学数据不完整。该研究具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Recently, multi-view and multi-label classification have become significant domains for comprehensive data analysis and exploration. However, incompleteness both in views and labels is still a real-world scenario for multi-view multi-label classification. In this paper, we seek to focus on double missing multi-view multi-label classification tasks and propose our dual-level contrastive learning framework to solve this issue. Different from the existing works, which couple consistent information and view-specific information in the same feature space, we decouple the two heterogeneous properties into different spaces and employ contrastive learning theory to fully disentangle the two properties. Specifically, our method first introduces a two-channel decoupling module that contains a shared representation and a view-proprietary representation to effectively extract consistency and complementarity information across all views. Second, to efficiently filter out high-quality consistent information from multi-view representations, two consistency objectives based on contrastive learning are conducted on the high-level features and the semantic labels, respectively. Extensive experiments on several widely used benchmark datasets demonstrate that the proposed method has more stable and superior classification performance.