Adaptive Disentangled Representation Learning for Incomplete Multi-View Multi-Label Classification

📄 arXiv: 2601.05785v1 📥 PDF

作者: Quanjiang Li, Zhiming Liu, Tianxiang Xu, Tingjin Luo, Chenping Hou

分类: cs.CV, cs.AI

发布日期: 2026-01-09


💡 一句话要点

提出自适应解耦表示学习(ADRL)方法,解决不完整多视图多标签分类问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多视图学习 多标签学习 不完整数据 表示学习 解耦表示 特征补全 标签传播

📋 核心要点

  1. 多视图多标签学习面临特征缺失和标签不完整的双重挑战,现有方法在特征恢复、表示解耦和标签语义建模方面存在局限性。
  2. ADRL通过跨模态特征级相似性传播实现鲁棒的视图补全,利用随机掩码增强重构,并传播类别级关联细化标签原型,从而实现有效的解耦表示学习。
  3. 实验结果表明,ADRL在公共数据集和实际应用中均表现出优越的性能,验证了其在不完整多视图多标签分类任务中的有效性。

📝 摘要(中文)

针对数据获取困难和监督标注成本高昂导致的多视图多标签学习中普遍存在的特征缺失和标签不完整问题,本文提出了一种自适应解耦表示学习方法(ADRL)。ADRL通过邻域感知的方式在模态间传播特征级相似性,实现鲁棒的视图补全,并利用随机掩码策略增强重构效果。通过在标签分布间传播类别级关联,ADRL细化分布参数以捕获相互依赖的标签原型。此外,本文还构建了一个基于互信息的损失函数,以促进共享表示的一致性,并抑制视图特定表示与其他模态之间的信息重叠。理论上,本文推导出了可用于训练双通道网络的可处理边界。ADRL还通过使标签嵌入和视图表示之间进行独立交互,执行原型特定的特征选择,并为每个类别生成伪标签。然后,利用伪标签空间的结构特征来指导视图融合期间的判别性权衡。在公共数据集和实际应用上的大量实验表明,ADRL具有优越的性能。

🔬 方法详解

问题定义:本文旨在解决不完整多视图多标签分类问题,即在多视图数据中,每个视图的特征可能缺失,同时每个样本的标签也可能不完整。现有方法通常难以同时处理特征缺失和标签不完整的情况,并且在特征恢复、表示解耦和标签语义建模方面存在不足,导致分类性能下降。

核心思路:ADRL的核心思路是通过自适应地学习解耦表示来应对特征缺失和标签不完整的问题。具体来说,它通过跨模态的特征相似性传播来补全缺失的视图特征,通过解耦共享表示和视图特定表示来提高表示的鲁棒性,并通过标签分布间的关联来建模标签语义,从而提高分类精度。

技术框架:ADRL的整体框架包含以下几个主要模块:1) 特征补全模块:利用邻域感知的跨模态特征相似性传播来补全缺失的视图特征。2) 表示解耦模块:通过互信息最小化来解耦共享表示和视图特定表示,从而提高表示的鲁棒性。3) 标签语义建模模块:通过传播类别级关联来细化标签分布参数,从而捕获标签之间的依赖关系。4) 视图融合模块:利用伪标签空间的结构特征来指导视图融合,从而提高分类性能。

关键创新:ADRL的关键创新在于其自适应的解耦表示学习框架,该框架能够同时处理特征缺失和标签不完整的问题,并且能够有效地解耦共享表示和视图特定表示,从而提高表示的鲁棒性。此外,ADRL还通过传播类别级关联来建模标签语义,从而提高分类精度。

关键设计:ADRL的关键设计包括:1) 使用邻域感知的跨模态特征相似性传播来进行特征补全。2) 使用基于互信息的损失函数来解耦共享表示和视图特定表示。3) 使用传播类别级关联的方法来细化标签分布参数。4) 使用伪标签空间的结构特征来指导视图融合。此外,ADRL还推导出了可用于训练双通道网络的可处理边界,并设计了原型特定的特征选择机制。

📊 实验亮点

ADRL在多个公共数据集和实际应用中取得了显著的性能提升。例如,在XXX数据集上,ADRL的分类准确率比现有最佳方法提高了X%。实验结果表明,ADRL能够有效地处理特征缺失和标签不完整的问题,并且能够学习到更鲁棒和更具判别性的表示。

🎯 应用场景

ADRL方法在图像分类、文本分类、生物信息学等领域具有广泛的应用前景。例如,在图像分类中,可以利用ADRL方法处理由于传感器故障或遮挡导致的图像特征缺失问题。在文本分类中,可以利用ADRL方法处理由于用户输入不完整或噪声导致的文本标签不完整问题。在生物信息学中,可以利用ADRL方法处理由于基因表达数据缺失或样本标签不完整导致的基因功能预测问题。该研究有助于提升多视图多标签学习在实际应用中的鲁棒性和准确性。

📄 摘要(原文)

Multi-view multi-label learning frequently suffers from simultaneous feature absence and incomplete annotations, due to challenges in data acquisition and cost-intensive supervision. To tackle the complex yet highly practical problem while overcoming the existing limitations of feature recovery, representation disentanglement, and label semantics modeling, we propose an Adaptive Disentangled Representation Learning method (ADRL). ADRL achieves robust view completion by propagating feature-level affinity across modalities with neighborhood awareness, and reinforces reconstruction effectiveness by leveraging a stochastic masking strategy. Through disseminating category-level association across label distributions, ADRL refines distribution parameters for capturing interdependent label prototypes. Besides, we formulate a mutual-information-based objective to promote consistency among shared representations and suppress information overlap between view-specific representation and other modalities. Theoretically, we derive the tractable bounds to train the dual-channel network. Moreover, ADRL performs prototype-specific feature selection by enabling independent interactions between label embeddings and view representations, accompanied by the generation of pseudo-labels for each category. The structural characteristics of the pseudo-label space are then exploited to guide a discriminative trade-off during view fusion. Finally, extensive experiments on public datasets and real-world applications demonstrate the superior performance of ADRL.