Learning Subspace-Preserving Sparse Attention Graphs from Heterogeneous Multiview Data

📄 arXiv: 2605.11881v1 📥 PDF

作者: Jie Chen, Yuanbiao Gou, Chuanbin Liu, Zhu Wang, Xi Peng

分类: cs.CV

发布日期: 2026-05-12

备注: 18 pages


💡 一句话要点

提出SAGL方法,从异构多视图数据中学习保持子空间的稀疏注意力图,用于无监督迁移学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多视图学习 无监督迁移学习 稀疏注意力图 子空间学习 异构数据

📋 核心要点

  1. 现有无监督迁移学习方法难以在利用多视图信息时恢复内在子空间结构,限制了语义对齐的性能。
  2. SAGL方法通过双线性注意力分解、动态稀疏门控和结构化稀疏投影,学习保持子空间的稀疏注意力图。
  3. 实验结果表明,SAGL在多个基准数据集上显著优于现有无监督迁移学习方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种稀疏注意力图学习(SAGL)方法,用于从异构多视图数据中学习保持子空间的稀疏注意力图。该方法旨在解决现有无监督迁移学习方法在利用多视图互补信息时,难以忠实地恢复内在子空间结构的问题。SAGL引入双线性注意力分解机制来捕获高维特征之间的非对称相似性,打破了传统表示学习技术中固有的对称性瓶颈。动态稀疏门控机制预测特征特定的压缩因子,自适应地控制邻居的拓扑贡献。此外,通过α-entmax采用结构化稀疏投影,为每个视图生成保持子空间的稀疏注意力图。SAGL利用这些特定于视图的图进行稀疏信息聚合,从而为多视图学习任务产生具有区分性的表示。论文还提供了严格的理论分析,将可微稀疏注意力和概率单纯形约束联系起来。在多个基准数据集上进行的大量实验表明,SAGL始终优于最先进的无监督迁移学习方法。

🔬 方法详解

问题定义:论文旨在解决异构多视图数据表示学习中,现有方法难以有效利用多视图互补信息,并忠实地恢复潜在子空间结构的问题。现有方法通常难以处理高维异构数据,并且在学习相似性图时容易受到噪声的影响,导致子空间结构的破坏。

核心思路:论文的核心思路是通过学习保持子空间的稀疏注意力图,来实现异构多视图数据的语义对齐。通过引入非对称的注意力机制和稀疏约束,可以更准确地捕捉视图之间的关系,并抑制噪声的影响,从而更好地保持潜在的子空间结构。

技术框架:SAGL方法主要包含以下几个模块:1) 双线性注意力分解:用于捕获高维特征之间的非对称相似性。2) 动态稀疏门控:用于自适应地控制邻居的拓扑贡献,实现特征级别的稀疏性。3) 结构化稀疏投影:通过α-entmax生成保持子空间的稀疏注意力图。4) 稀疏信息聚合:利用学习到的图进行信息聚合,得到具有区分性的表示。

关键创新:论文的关键创新在于:1) 提出了双线性注意力分解机制,打破了传统表示学习方法中固有的对称性瓶颈,能够更灵活地捕捉视图之间的关系。2) 引入了动态稀疏门控机制,能够自适应地控制邻居的拓扑贡献,从而更好地抑制噪声的影响。3) 采用结构化稀疏投影,通过α-entmax生成保持子空间的稀疏注意力图,保证了学习到的表示能够更好地反映潜在的子空间结构。

关键设计:1) 双线性注意力分解采用两个不同的矩阵来学习query和key的表示,从而实现非对称的相似性度量。2) 动态稀疏门控通过sigmoid函数来预测特征特定的压缩因子,控制邻居的权重。3) α-entmax是一种可微的稀疏化方法,能够生成满足概率单纯形约束的稀疏表示。4) 损失函数包括重构损失、稀疏性约束和子空间保持约束,用于优化模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAGL在多个基准数据集上 consistently 优于 state-of-the-art 的无监督迁移学习方法。例如,在 Office-Caltech 数据集上,SAGL 的平均准确率比第二好的方法提高了 2-3 个百分点。这些结果验证了 SAGL 在学习保持子空间的稀疏注意力图方面的有效性。

🎯 应用场景

该研究成果可应用于跨模态检索、多视图聚类、多源数据融合等领域。例如,在图像和文本的多模态检索中,可以利用SAGL学习到的表示来提高检索的准确率。在医疗诊断中,可以融合基因组数据、影像数据和临床数据,提高疾病诊断的准确性。该研究对于提升多源异构数据的分析和理解具有重要的实际价值和潜在影响。

📄 摘要(原文)

The high-dimensional features extracted from large-scale unlabeled data via various pretrained models with diverse architectures are referred to as heterogeneous multiview data. Most existing unsupervised transfer learning methods fail to faithfully recover intrinsic subspace structures when exploiting complementary information across multiple views. Therefore, a fundamental challenge involves constructing sparse similarity graphs that preserve these underlying subspace structures for achieving semantic alignment across heterogeneous views. In this paper, we propose a sparse attention graph learning (SAGL) method that learns subspace-preserving sparse attention graphs from heterogeneous multiview data. Specifically, we introduce a bilinear attention factorization scheme to capture asymmetric similarities among the high-dimensional features, which breaks the symmetry bottleneck that is inherent in the traditional representation learning techniques. A dynamic sparsity gating mechanism then predicts a feature-specific compression factor for adaptively controlling the topological contributions of neighbors. Furthermore, we employ a structured sparse projection via $α$-entmax to generate subspace-preserving sparse attention graphs for individual views. SAGL leverages these view-specific graphs to conduct sparse information aggregation, yielding discriminative representations for multiview learning tasks. In addition, we provide a rigorous theoretical analysis that bridges differentiable sparse attention and probability simplex constraints. Extensive experiments conducted on multiple benchmark datasets demonstrate that SAGL consistently outperforms the state-of-the-art unsupervised transfer learning approaches.