Sheaf Neural Networks on SPD Manifolds: Second-Order Geometric Representation Learning
作者: Yuhan Peng, Junwen Dong, Yuzhi Zeng, Hao Li, Ce Ju, Huitao Feng, Diaaeldin Taha, Anna Wienhard, Kelin Xia
分类: cs.LG
发布日期: 2026-04-22
💡 一句话要点
提出基于SPD流形上的Sheaf神经网络,用于二阶几何表示学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图神经网络 Sheaf神经网络 SPD流形 二阶几何表示 分子性质预测
📋 核心要点
- 现有图神经网络使用向量表示几何信息,无法有效捕捉方向间的关系,限制了其在需要二阶表示的任务中的应用。
- 本文提出在SPD流形上构建Sheaf神经网络,利用SPD矩阵表示二阶几何信息,并利用李群结构定义Sheaf算子,避免投影到欧几里得空间。
- 实验结果表明,该方法在MoleculeNet基准测试中取得了SOTA性能,并展现出良好的深度鲁棒性,验证了该方法的有效性。
📝 摘要(中文)
图神经网络面临两个根本挑战:一是现有架构使用向量表示几何信息,而许多任务需要矩阵值表示来捕捉方向之间的关系,例如分子中原子方向的协方差,这类二阶表示天然地由对称正定(SPD)矩阵流形上的点捕捉;二是标准消息传递在边上应用共享变换。Sheaf神经网络通过边特定的变换解决此问题,但现有公式仍局限于向量空间,无法传播矩阵值特征。本文提出首个在SPD流形上原生运行的Sheaf神经网络。关键在于SPD流形具有李群结构,从而实现Sheaf算子的良好定义,无需投影到欧几里得空间。理论上,证明了SPD值Sheaf比欧几里得Sheaf更具表达力,它们允许向量值Sheaf无法表示的一致配置(全局截面),直接转化为更丰富的学习表示。实验表明,本文的Sheaf卷积有效地将秩1方向输入转换为编码局部几何结构的全秩矩阵。双流架构在7个MoleculeNet基准测试中的6个上实现了SOTA,并且Sheaf框架提供了持续的深度鲁棒性。
🔬 方法详解
问题定义:现有图神经网络主要基于欧几里得向量空间,难以有效处理需要二阶几何信息的任务,例如分子性质预测中原子方向协方差的建模。传统的GNN在消息传递过程中使用共享的变换矩阵,忽略了不同边之间的差异性,限制了模型的表达能力。因此,如何有效地利用矩阵值表示(例如SPD矩阵)来捕捉节点之间的关系,并设计能够处理这种矩阵值特征的图神经网络是一个关键问题。
核心思路:本文的核心思路是在对称正定(SPD)矩阵流形上构建Sheaf神经网络。SPD矩阵能够自然地表示二阶几何信息,例如方向之间的协方差。通过在SPD流形上定义Sheaf算子,可以实现边特定的变换,从而更好地捕捉不同边之间的差异性。利用SPD流形的李群结构,可以避免将SPD矩阵投影到欧几里得空间,从而保持其几何特性。
技术框架:该方法采用双流架构,包含两个主要分支:一个分支处理节点特征,另一个分支处理边特征。对于边特征,首先将输入的方向向量转换为SPD矩阵,然后使用SPD Sheaf卷积层进行消息传递。SPD Sheaf卷积层利用SPD流形的李群结构,定义了边特定的变换,从而实现了在SPD流形上的消息传递。最后,将节点特征和边特征进行融合,用于最终的预测任务。
关键创新:该方法最重要的技术创新点在于提出了首个在SPD流形上运行的Sheaf神经网络。与传统的基于欧几里得空间的Sheaf神经网络相比,该方法能够直接处理矩阵值特征,并利用SPD流形的几何特性进行消息传递。此外,该方法还证明了SPD值Sheaf比欧几里得Sheaf更具表达力,能够表示向量值Sheaf无法表示的一致配置。
关键设计:在SPD Sheaf卷积层中,关键的设计在于如何定义边特定的变换。本文利用SPD流形的李群结构,将变换定义为李群元素在切空间上的指数映射。通过学习李群元素,可以实现边特定的变换。损失函数包括预测损失和正则化项,用于约束李群元素的范数,防止过拟合。网络深度和层数是重要的超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
该方法在MoleculeNet基准测试的7个数据集中的6个上取得了SOTA性能。例如,在BACE数据集上,该方法相比现有最佳方法提升了超过2%。此外,实验结果还表明,该方法具有良好的深度鲁棒性,随着网络深度的增加,性能下降幅度较小,表明Sheaf框架能够有效缓解过平滑问题。
🎯 应用场景
该研究成果可广泛应用于需要二阶几何表示学习的领域,例如分子性质预测、材料科学、医学图像分析等。通过捕捉方向之间的关系,可以更准确地建模复杂系统的几何结构,从而提高预测精度和模型泛化能力。未来,该方法可以进一步扩展到其他流形上,以处理更复杂的几何数据。
📄 摘要(原文)
Graph neural networks face two fundamental challenges rooted in the linear structure of Euclidean vector spaces: (1) Current architectures represent geometry through vectors (directions, gradients), yet many tasks require matrix-valued representations that capture relationships between directions-such as how atomic orientations covary in a molecule. These second-order representations are naturally captured by points on the symmetric positive definite matrices (SPD) manifold; (2) Standard message passing applies shared transformations across edges. Sheaf neural networks address this via edge-specific transformations, but existing formulations remain confined to vector spaces and therefore cannot propagate matrix-valued features. We address both challenges by developing the first sheaf neural network operates natively on the SPD manifold. Our key insight is that the SPD manifold admits a Lie group structure, enabling well-posed analogs of sheaf operators without projecting to Euclidean space. Theoretically, we prove that SPD-valued sheaves are strictly more expressive than Euclidean sheaves: they admit consistent configurations (global sections) that vector-valued sheaves cannot represent, directly translating to richer learned representations. Empirically, our sheaf convolution transforms effectively rank-1 directional inputs into full-rank matrices encoding local geometric structure. Our dual-stream architecture achieves SOTA on 6/7 MoleculeNet benchmarks, with the sheaf framework providing consistent depth robustness.