Beyond Augmentation: Leveraging Inter-Instance Relation in Self-Supervised Representation Learning
作者: Ali Javidani, Babak Nadjar Araabi, Mohammad Amin Sadeghi
分类: cs.CV
发布日期: 2025-10-25
备注: Accepted in IEEE Signal Processing Letters, 2025
期刊: IEEE Signal Processing Letters, vol. 32, pp. 3730-3734, 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于图神经网络的自监督学习方法,利用实例间关系提升表征质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 图神经网络 对比学习 表征学习 实例关系 KNN图
📋 核心要点
- 现有自监督学习方法主要关注实例内部的数据增强,忽略了实例之间的关系,限制了表征学习的性能。
- 该论文提出利用图神经网络建模实例间的关系,通过构建KNN图并在图上传播信息来增强表征学习。
- 实验结果表明,该方法在多个数据集上显著优于现有自监督学习方法,验证了图建模的有效性。
📝 摘要(中文)
本文提出了一种将图理论融入自监督表征学习的新方法。传统方法侧重于通过数据增强产生的实例内变化,但常常忽略重要的实例间关系。本文方法在保留实例内属性的同时,通过在预训练期间为教师和学生流构建k近邻(KNN)图来捕获实例间关系。在这些图中,节点代表样本及其潜在表征,边编码实例之间的相似性。预训练之后,执行表征细化阶段。在此阶段,图神经网络(GNN)不仅在直接邻居之间传播消息,还在多个跳跃之间传播消息,从而实现更广泛的上下文集成。在CIFAR-10、ImageNet-100和ImageNet-1K上的实验结果表明,相对于最先进的方法,准确率分别提高了7.3%、3.2%和1.0%。这些结果突出了所提出的基于图机制的有效性。代码已公开。
🔬 方法详解
问题定义:现有的自监督学习方法主要依赖于对单个实例进行数据增强,从而学习到对数据扰动的鲁棒性表征。然而,这些方法忽略了不同实例之间的关系,这可能包含有用的上下文信息,从而限制了表征学习的性能。因此,如何有效地利用实例间的关系是本文要解决的关键问题。
核心思路:本文的核心思路是利用图神经网络(GNN)来建模实例之间的关系。通过构建k近邻(KNN)图,将每个实例表示为图中的一个节点,节点之间的边表示实例之间的相似性。然后,利用GNN在图上传播信息,从而将每个实例的表征与其他相似实例的表征进行融合,从而学习到更具上下文信息的表征。
技术框架:该方法主要包含两个阶段:预训练阶段和表征细化阶段。在预训练阶段,使用对比学习框架,同时维护教师和学生两个网络。对于每个输入样本,通过数据增强生成两个视图,分别输入到教师和学生网络中。然后,为教师和学生网络的输出构建KNN图。在表征细化阶段,使用图神经网络(GNN)在KNN图上传播信息,从而细化每个实例的表征。
关键创新:该方法最重要的创新点在于将图神经网络引入到自监督学习中,从而能够有效地利用实例之间的关系。与传统的自监督学习方法相比,该方法不仅关注实例内部的数据增强,还关注实例之间的上下文信息,从而学习到更具判别性的表征。
关键设计:在构建KNN图时,使用余弦相似度来衡量实例之间的相似性。在GNN中,使用多层感知机(MLP)作为节点更新函数。损失函数包括对比损失和图正则化损失。对比损失用于鼓励相似实例的表征更加接近,图正则化损失用于鼓励相邻节点的表征更加平滑。
📊 实验亮点
实验结果表明,该方法在CIFAR-10、ImageNet-100和ImageNet-1K数据集上均取得了显著的性能提升。在CIFAR-10上,该方法比最先进的方法提高了7.3%的准确率。在ImageNet-100和ImageNet-1K上,该方法分别提高了3.2%和1.0%的准确率。这些结果表明,该方法能够有效地利用实例间的关系,从而学习到更具判别性的表征。
🎯 应用场景
该研究成果可广泛应用于计算机视觉领域的各种任务,例如图像分类、目标检测、图像分割等。通过学习到更具判别性的图像表征,可以提高这些任务的性能。此外,该方法还可以应用于其他领域,例如自然语言处理和推荐系统,通过建模实体之间的关系来提高模型的性能。
📄 摘要(原文)
This paper introduces a novel approach that integrates graph theory into self-supervised representation learning. Traditional methods focus on intra-instance variations generated by applying augmentations. However, they often overlook important inter-instance relationships. While our method retains the intra-instance property, it further captures inter-instance relationships by constructing k-nearest neighbor (KNN) graphs for both teacher and student streams during pretraining. In these graphs, nodes represent samples along with their latent representations. Edges encode the similarity between instances. Following pretraining, a representation refinement phase is performed. In this phase, Graph Neural Networks (GNNs) propagate messages not only among immediate neighbors but also across multiple hops, thereby enabling broader contextual integration. Experimental results on CIFAR-10, ImageNet-100, and ImageNet-1K demonstrate accuracy improvements of 7.3%, 3.2%, and 1.0%, respectively, over state-of-the-art methods. These results highlight the effectiveness of the proposed graph based mechanism. The code is publicly available at https://github.com/alijavidani/SSL-GraphNNCLR.