Incomplete Multi-View Multi-Label Classification via Shared Codebook and Fused-Teacher Self-Distillation

📄 arXiv: 2604.04170 📥 PDF

作者: Xu Yan, Jun Yin, Shiliang Sun, Minghua Wan

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于共享码本和融合教师自蒸馏的不完全多视角多标签分类方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多视角学习 多标签分类 不完全数据 共享码本 自蒸馏

📋 核心要点

  1. 现有不完全多视角多标签学习方法难以在视角和标签均缺失的情况下,有效学习稳定且具有判别性的共享语义表示。
  2. 论文提出一种基于共享码本和融合教师自蒸馏的框架,利用离散码本对齐不同视角,并使用融合预测指导单视角学习。
  3. 在五个基准数据集上的实验表明,该方法优于现有方法,证明了其在不完全多视角多标签分类任务中的有效性。

📝 摘要(中文)

多视角多标签学习已被广泛研究,但对视角和标签均不完整的双重缺失场景的研究仍然不足。现有方法主要依赖对比学习或信息瓶颈理论来学习缺失视角下的稳定表示,但缺乏显式结构约束的基于损失的对齐限制了捕获稳定和判别性共享语义的能力。为了解决这个问题,我们引入了一种更结构化的机制来进行一致性表示学习:通过多视角共享码本和跨视角重建来学习离散的一致性表示,这自然地在有限的共享码本嵌入中对齐不同的视角,并减少特征冗余。在决策层面,我们设计了一种权重估计方法,该方法评估每个视角保留标签相关结构的能力,并相应地分配权重,以提高融合预测的质量。此外,我们引入了一个融合教师自蒸馏框架,其中融合预测指导特定视角分类器的训练,并将全局知识反馈到单视角分支中,从而提高模型在缺失标签条件下的泛化能力。通过与五个基准数据集上的先进方法进行广泛的比较实验,充分证明了我们提出的方法的有效性。

🔬 方法详解

问题定义:论文旨在解决不完全多视角多标签分类问题,即在多视角数据中,每个样本可能缺失部分视角的数据,同时标签也是不完整的。现有方法主要依赖对比学习或信息瓶颈理论,但缺乏显式的结构约束,难以学习到稳定且具有判别性的共享语义表示。

核心思路:论文的核心思路是通过引入共享码本,将不同视角的数据映射到同一个离散的表示空间,从而实现跨视角的对齐和信息共享。同时,利用融合教师自蒸馏框架,将融合预测的知识传递给单视角分类器,提高模型在缺失标签情况下的泛化能力。

技术框架:整体框架包含三个主要模块:1) 多视角共享码本学习模块:该模块学习一个共享的码本,用于将不同视角的数据编码成离散的表示。2) 跨视角重建模块:该模块利用学习到的离散表示,重建原始的视角数据,从而实现跨视角的对齐。3) 融合教师自蒸馏模块:该模块利用融合预测作为教师信号,指导单视角分类器的训练,并将全局知识反馈到单视角分支中。

关键创新:论文的关键创新在于:1) 引入了共享码本,通过离散表示实现了跨视角的对齐,并减少了特征冗余。2) 提出了融合教师自蒸馏框架,利用融合预测指导单视角学习,提高了模型在缺失标签情况下的泛化能力。3) 设计了一种权重估计方法,评估每个视角保留标签相关结构的能力,并相应地分配权重,以提高融合预测的质量。

关键设计:在多视角共享码本学习模块中,使用了K-means算法来学习码本。在跨视角重建模块中,使用了均方误差损失函数来衡量重建误差。在融合教师自蒸馏模块中,使用了交叉熵损失函数来衡量预测误差,并使用KL散度来衡量教师信号和学生信号之间的差异。权重的计算基于视角预测结果与真实标签的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在五个基准数据集上均取得了优于现有方法的性能。例如,在Scene数据集上,该方法相比于次优方法提升了约2%。此外,消融实验验证了共享码本和融合教师自蒸馏框架的有效性。

🎯 应用场景

该研究成果可应用于图像分类、视频分析、社交媒体分析等领域,尤其是在数据不完整或存在噪声的情况下,例如,在医疗诊断中,不同模态的医学影像可能存在缺失,该方法可以利用已有的模态信息进行诊断。在社交媒体分析中,用户的个人资料和行为数据可能不完整,该方法可以利用已有的信息进行用户画像和推荐。

📄 摘要(原文)

Although multi-view multi-label learning has been extensively studied, research on the dual-missing scenario, where both views and labels are incomplete, remains largely unexplored. Existing methods mainly rely on contrastive learning or information bottleneck theory to learn consistent representations under missing-view conditions, but loss-based alignment without explicit structural constraints limits the ability to capture stable and discriminative shared semantics. To address this issue, we introduce a more structured mechanism for consistent representation learning: we learn discrete consistent representations through a multi-view shared codebook and cross-view reconstruction, which naturally align different views within the limited shared codebook embeddings and reduce feature redundancy. At the decision level, we design a weight estimation method that evaluates the ability of each view to preserve label correlation structures, assigning weights accordingly to enhance the quality of the fused prediction. In addition, we introduce a fused-teacher self-distillation framework, where the fused prediction guides the training of view-specific classifiers and feeds the global knowledge back into the single-view branches, thereby enhancing the generalization ability of the model under missing-label conditions. The effectiveness of our proposed method is thoroughly demonstrated through extensive comparative experiments with advanced methods on five benchmark datasets. Code is available atthis https URL.