Do Neural Scaling Laws Exist on Graph Self-Supervised Learning?

📄 arXiv: 2408.11243v2 📥 PDF

作者: Qian Ma, Haitao Mao, Jingzhe Liu, Zhehua Zhang, Chunlin Feng, Yu Song, Yihan Shao, Yao Ma

分类: cs.LG, cs.AI

发布日期: 2024-08-20 (更新: 2024-08-26)

🔗 代码/项目: GITHUB


💡 一句话要点

揭示图自监督学习的规模定律缺失:现有方法难以支撑图基础模型的构建

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图自监督学习 神经规模定律 图基础模型 预训练 图神经网络

📋 核心要点

  1. 现有图自监督学习方法在扩展到更大规模数据和模型时,下游任务性能提升不明显,缺乏神经规模定律。
  2. 通过大规模实验,系统性地评估了现有图自监督学习技术在不同数据和模型规模下的性能表现。
  3. 实验结果表明,模型架构和预训练任务设计比模型和数据规模对性能的影响更大,为图自监督学习设计提供了新方向。

📝 摘要(中文)

自监督学习(SSL)对于在自然语言处理和计算机视觉领域通过有效利用大规模无标签数据来获得基础模型至关重要。其成功的原因在于,合适的SSL设计可以帮助模型遵循神经规模定律,即性能随着模型和数据集规模的增加而持续提高。然而,图领域中现有的SSL是否能够遵循这种规模行为,从而利用大规模预训练来构建图基础模型(GFM),仍然是一个谜。本研究考察了现有的图SSL技术是否能够遵循神经规模定律,从而有可能成为GFM的重要组成部分。我们的基准测试包括全面的SSL技术实现,并对传统SSL设置以及其他领域中采用的许多新设置进行了分析。令人惊讶的是,尽管SSL损失持续减少,但没有现有的图SSL技术遵循下游性能的神经规模定律。模型性能仅在不同的数据规模和模型规模上略有波动。相反,影响性能的关键因素是模型架构和预训练任务设计的选择。本文研究了现有SSL技术在开发GFM中图SSL技术的可行性,并为图SSL设计开辟了一个新的方向,并提出了新的评估原型。我们的代码实现在线提供,以方便重现。

🔬 方法详解

问题定义:现有图自监督学习方法在应用于大规模图数据时,无法像NLP和CV领域那样,通过增大模型和数据集规模来持续提升下游任务的性能。这表明现有的图自监督学习方法可能并不具备神经规模定律,阻碍了图基础模型的构建。现有方法的痛点在于,它们的设计可能没有充分考虑到图数据的特性,或者在扩展到更大规模时遇到了优化上的困难。

核心思路:该论文的核心思路是通过大规模的实验,系统性地评估现有图自监督学习方法在不同数据和模型规模下的性能表现,从而验证其是否遵循神经规模定律。如果现有方法不遵循规模定律,则需要重新思考图自监督学习的设计,例如选择更合适的模型架构和预训练任务。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一系列具有代表性的图自监督学习方法;2) 在不同规模的图数据集上进行预训练;3) 在下游任务上评估预训练模型的性能;4) 分析模型性能与模型和数据规模之间的关系,从而判断是否遵循神经规模定律。

关键创新:该论文最重要的技术创新点在于,它首次系统性地研究了图自监督学习中的规模定律问题,并发现现有方法并不具备这种特性。这一发现挑战了人们对图自监督学习的传统认知,并为未来的研究指明了方向。

关键设计:实验中,论文作者选择了多种图神经网络架构(如GCN、GAT、GraphSAGE)和不同的预训练任务(如节点属性预测、图结构预测)。他们还仔细控制了模型和数据的规模,并使用标准化的评估指标来衡量下游任务的性能。损失函数方面,采用了常用的对比学习损失和交叉熵损失等。网络结构方面,探索了不同层数和隐藏层维度的图神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管SSL损失持续下降,但现有的图SSL技术在下游任务中并未表现出神经规模定律。模型性能在不同数据和模型规模上仅略有波动。关键因素是模型架构和预训练任务的选择,而非规模本身。例如,某些特定的模型架构或预训练任务在小规模数据上表现良好,但在大规模数据上却无法继续提升。

🎯 应用场景

该研究成果对于图机器学习领域具有重要意义,可以指导研究人员设计更有效的图自监督学习方法,从而构建更强大的图基础模型。这些模型可以应用于各种图相关的任务,例如社交网络分析、生物信息学、化学信息学和推荐系统等,从而提升这些领域的应用性能。

📄 摘要(原文)

Self-supervised learning~(SSL) is essential to obtain foundation models in NLP and CV domains via effectively leveraging knowledge in large-scale unlabeled data. The reason for its success is that a suitable SSL design can help the model to follow the neural scaling law, i.e., the performance consistently improves with increasing model and dataset sizes. However, it remains a mystery whether existing SSL in the graph domain can follow the scaling behavior toward building Graph Foundation Models~(GFMs) with large-scale pre-training. In this study, we examine whether existing graph SSL techniques can follow the neural scaling behavior with the potential to serve as the essential component for GFMs. Our benchmark includes comprehensive SSL technique implementations with analysis conducted on both the conventional SSL setting and many new settings adopted in other domains. Surprisingly, despite the SSL loss continuously decreasing, no existing graph SSL techniques follow the neural scaling behavior on the downstream performance. The model performance only merely fluctuates on different data scales and model scales. Instead of the scales, the key factors influencing the performance are the choices of model architecture and pretext task design. This paper examines existing SSL techniques for the feasibility of Graph SSL techniques in developing GFMs and opens a new direction for graph SSL design with the new evaluation prototype. Our code implementation is available online to ease reproducibility on https://github.com/GraphSSLScaling/GraphSSLScaling.