Beyond Augmentation: Leveraging Inter-Instance Relation in Self-Supervised Representation Learning

📄 arXiv: 2510.22322v1 📥 PDF

作者: Ali Javidani, Babak Nadjar Araabi, Mohammad Amin Sadeghi

分类: cs.CV

发布日期: 2025-10-25

备注: Accepted in IEEE Signal Processing Letters, 2025

期刊: IEEE Signal Processing Letters, vol. 32, pp. 3730-3734, 2025

DOI: 10.1109/LSP.2025.3610549

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于图神经网络的自监督学习方法,利用实例间关系提升表征质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 图神经网络 对比学习 表征学习 实例关系 KNN图

📋 核心要点

  1. 现有自监督学习方法主要关注实例内部的数据增强,忽略了实例之间的关系,限制了表征学习的性能。
  2. 该方法构建KNN图来建模实例间的关系,并使用图神经网络进行消息传递,从而学习更丰富的上下文信息。
  3. 实验表明,该方法在多个图像分类数据集上显著优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种将图论融入自监督表征学习的新方法。传统方法侧重于通过数据增强产生的实例内变化,而忽略了重要的实例间关系。本文方法在保留实例内属性的同时,通过在预训练期间为教师和学生流构建k近邻(KNN)图来捕获实例间关系。在这些图中,节点代表样本及其潜在表征,边编码实例之间的相似性。预训练之后,执行表征细化阶段。在此阶段,图神经网络(GNN)不仅在直接邻居之间传播消息,还在多个跳跃之间传播消息,从而实现更广泛的上下文集成。在CIFAR-10、ImageNet-100和ImageNet-1K上的实验结果表明,相对于现有最佳方法,准确率分别提高了7.3%、3.2%和1.0%。这些结果突出了所提出的基于图机制的有效性。代码已公开。

🔬 方法详解

问题定义:现有的自监督学习方法主要依赖于对单个实例进行数据增强,生成不同的视图,并通过对比学习来学习表征。然而,这些方法忽略了实例之间的关系,例如相似实例应该具有相似的表征。这种忽略限制了模型学习判别性更强、泛化能力更好的表征。

核心思路:本文的核心思路是利用图结构来建模实例之间的关系,并将这种关系融入到自监督学习过程中。具体来说,对于每个数据集,构建一个KNN图,其中节点代表实例,边代表实例之间的相似性。然后,利用图神经网络在该图上进行消息传递,从而让每个实例的表征能够感知到其邻居的信息,从而学习到更丰富的上下文信息。

技术框架:该方法包含两个主要阶段:预训练阶段和表征细化阶段。在预训练阶段,使用对比学习框架,同时考虑实例内和实例间的关系。对于每个实例,通过数据增强生成两个视图,分别输入到教师网络和学生网络。同时,为教师网络和学生网络分别构建KNN图。在表征细化阶段,使用图神经网络在KNN图上进行消息传递,从而进一步提升表征的质量。

关键创新:该方法最重要的创新点在于将图结构引入到自监督学习中,从而能够显式地建模实例之间的关系。与传统的对比学习方法相比,该方法能够学习到更丰富的上下文信息,从而提升表征的质量。此外,该方法还提出了一个表征细化阶段,利用图神经网络进一步提升表征的质量。

关键设计:在构建KNN图时,使用余弦相似度来衡量实例之间的相似性。在图神经网络中,使用GCN作为消息传递的算子。在损失函数方面,使用了InfoNCE损失函数来鼓励相似实例具有相似的表征,不相似实例具有不同的表征。具体来说,KNN图的K值,GNN的层数,以及损失函数的权重等参数需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在CIFAR-10、ImageNet-100和ImageNet-1K数据集上均取得了显著的性能提升。具体来说,在CIFAR-10上,该方法比现有最佳方法提高了7.3%的准确率;在ImageNet-100上,提高了3.2%的准确率;在ImageNet-1K上,提高了1.0%的准确率。这些结果表明,该方法能够有效地利用实例间的关系来提升表征学习的性能。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域的各种任务,例如图像分类、目标检测、图像分割等。通过学习更有效的图像表征,可以提升这些任务的性能。此外,该方法还可以应用于其他领域,例如自然语言处理和推荐系统,通过构建合适的图结构来建模数据之间的关系,从而提升模型的性能。该研究具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

This paper introduces a novel approach that integrates graph theory into self-supervised representation learning. Traditional methods focus on intra-instance variations generated by applying augmentations. However, they often overlook important inter-instance relationships. While our method retains the intra-instance property, it further captures inter-instance relationships by constructing k-nearest neighbor (KNN) graphs for both teacher and student streams during pretraining. In these graphs, nodes represent samples along with their latent representations. Edges encode the similarity between instances. Following pretraining, a representation refinement phase is performed. In this phase, Graph Neural Networks (GNNs) propagate messages not only among immediate neighbors but also across multiple hops, thereby enabling broader contextual integration. Experimental results on CIFAR-10, ImageNet-100, and ImageNet-1K demonstrate accuracy improvements of 7.3%, 3.2%, and 1.0%, respectively, over state-of-the-art methods. These results highlight the effectiveness of the proposed graph based mechanism. The code is publicly available at https://github.com/alijavidani/SSL-GraphNNCLR.