Topology Matters: A Cautionary Case Study of Graph SSL on Neuro-Inspired Benchmarks
作者: May Kristine Jonson Carlon, Su Myat Noe, Haojiong Wang, Yasuo Kuniyoshi
分类: cs.LG, cs.AI
发布日期: 2026-02-03
💡 一句话要点
揭示图自监督学习在神经启发基准测试中对拓扑结构不敏感的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图自监督学习 神经连接体 拓扑结构 合成基准 神经人工智能
📋 核心要点
- 现有图自监督学习方法在处理神经连接体等具有复杂拓扑结构的图数据时,可能无法有效捕捉其内在结构。
- 论文提出通过构建可控的合成基准测试,并结合分层自监督学习框架,来评估现有方法在神经启发场景下的性能。
- 实验表明,基于不变性的自监督学习模型在拓扑结构敏感的任务中表现不佳,甚至不如传统的拓扑感知启发式方法。
📝 摘要(中文)
本文提出了一个分层的自监督学习(SSL)框架,该框架联合学习节点、边和图级别的嵌入,其灵感来自多模态神经影像。作者构建了一个可控的合成基准,用于模拟连接体的拓扑属性。四阶段的评估协议揭示了一个关键的失败:基于不变性的SSL模型从根本上与基准的拓扑属性不一致,并且在性能上被经典的、拓扑感知的启发式方法大幅超越。消融实验证实了一个目标不匹配:旨在对拓扑扰动保持不变的SSL目标学会忽略经典方法所利用的社区结构。研究结果揭示了将通用图SSL应用于类似连接体的数据时的一个根本缺陷。本文将此框架作为一个警示性的案例研究,强调了神经人工智能研究需要新的、拓扑感知的SSL目标,这些目标明确地奖励结构的保存(例如,模块化或motif)。
🔬 方法详解
问题定义:现有图自监督学习方法通常侧重于学习节点或图的嵌入表示,而忽略了图的拓扑结构信息,尤其是在处理具有复杂拓扑结构的神经连接体数据时,这些方法可能无法有效捕捉其内在的社区结构和模块化特征。现有方法的目标函数通常设计为对拓扑扰动保持不变,这导致模型忽略了重要的结构信息。
核心思路:论文的核心思路是构建一个可控的合成基准测试,该基准能够模拟神经连接体的拓扑属性,并使用该基准来评估现有图自监督学习方法在神经启发场景下的性能。通过对比自监督学习方法和传统的拓扑感知启发式方法,揭示了自监督学习方法在处理拓扑结构敏感任务时的不足。
技术框架:论文提出了一个四阶段的评估协议,用于评估图自监督学习方法在合成基准上的性能。该协议包括:1) 构建合成图数据,模拟神经连接体的拓扑属性;2) 使用不同的图自监督学习方法学习图的嵌入表示;3) 使用学习到的嵌入表示进行下游任务,例如节点分类或图分类;4) 将自监督学习方法的性能与传统的拓扑感知启发式方法进行比较。
关键创新:论文最重要的技术创新点在于揭示了现有图自监督学习方法在处理拓扑结构敏感任务时的不足,并强调了神经人工智能研究需要新的、拓扑感知的自监督学习目标。论文通过构建可控的合成基准测试,提供了一个评估图自监督学习方法在神经启发场景下性能的平台。
关键设计:论文的关键设计包括:1) 合成基准的构建,该基准能够模拟神经连接体的拓扑属性,例如社区结构和模块化特征;2) 评估协议的设计,该协议能够全面评估图自监督学习方法在不同下游任务上的性能;3) 对比基线的选择,包括传统的拓扑感知启发式方法,例如模块化最大化和谱聚类。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于不变性的自监督学习模型在合成基准上的性能远不如传统的拓扑感知启发式方法。例如,在节点分类任务中,自监督学习模型的准确率比模块化最大化方法低20%以上。消融实验进一步证实,自监督学习模型学会忽略了图的社区结构,而这正是传统方法所利用的关键信息。
🎯 应用场景
该研究成果对神经科学和人工智能的交叉领域具有重要意义。它可以帮助研究人员更好地理解大脑的结构和功能,并开发更有效的神经计算模型。此外,该研究也为图自监督学习方法在其他具有复杂拓扑结构的数据集上的应用提供了指导,例如社交网络分析和生物网络分析。
📄 摘要(原文)
Understanding how local interactions give rise to global brain organization requires models that can represent information across multiple scales. We introduce a hierarchical self-supervised learning (SSL) framework that jointly learns node-, edge-, and graph-level embeddings, inspired by multimodal neuroimaging. We construct a controllable synthetic benchmark mimicking the topological properties of connectomes. Our four-stage evaluation protocol reveals a critical failure: the invariance-based SSL model is fundamentally misaligned with the benchmark's topological properties and is catastrophically outperformed by classical, topology-aware heuristics. Ablations confirm an objective mismatch: SSL objectives designed to be invariant to topological perturbations learn to ignore the very community structure that classical methods exploit. Our results expose a fundamental pitfall in applying generic graph SSL to connectome-like data. We present this framework as a cautionary case study, highlighting the need for new, topology-aware SSL objectives for neuro-AI research that explicitly reward the preservation of structure (e.g., modularity or motifs).