Sheaf Neural Networks on SPD Manifolds: Second-Order Geometric Representation Learning

作者: Yuhan Peng, Junwen Dong, Yuzhi Zeng, Hao Li, Ce Ju, Huitao Feng, Diaaeldin Taha, Anna Wienhard, Kelin Xia

分类: cs.LG

发布日期: 2026-04-22

💡 一句话要点

提出基于SPD流形上的Sheaf神经网络，用于二阶几何表示学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图神经网络 Sheaf神经网络 SPD流形 二阶几何表示 分子性质预测

📋 核心要点

现有图神经网络使用向量表示几何信息，无法有效捕捉方向间的关系，限制了其在需要二阶表示的任务中的应用。
本文提出在SPD流形上构建Sheaf神经网络，利用SPD矩阵表示二阶几何信息，并利用李群结构定义Sheaf算子，避免投影到欧几里得空间。
实验结果表明，该方法在MoleculeNet基准测试中取得了SOTA性能，并展现出良好的深度鲁棒性，验证了该方法的有效性。

📝 摘要（中文）

图神经网络面临两个根本挑战：一是现有架构使用向量表示几何信息，而许多任务需要矩阵值表示来捕捉方向之间的关系，例如分子中原子方向的协方差，这类二阶表示天然地由对称正定（SPD）矩阵流形上的点捕捉；二是标准消息传递在边上应用共享变换。Sheaf神经网络通过边特定的变换解决此问题，但现有公式仍局限于向量空间，无法传播矩阵值特征。本文提出首个在SPD流形上原生运行的Sheaf神经网络。关键在于SPD流形具有李群结构，从而实现Sheaf算子的良好定义，无需投影到欧几里得空间。理论上，证明了SPD值Sheaf比欧几里得Sheaf更具表达力，它们允许向量值Sheaf无法表示的一致配置（全局截面），直接转化为更丰富的学习表示。实验表明，本文的Sheaf卷积有效地将秩1方向输入转换为编码局部几何结构的全秩矩阵。双流架构在7个MoleculeNet基准测试中的6个上实现了SOTA，并且Sheaf框架提供了持续的深度鲁棒性。

🔬 方法详解

问题定义：现有图神经网络主要基于欧几里得向量空间，难以有效处理需要二阶几何信息的任务，例如分子性质预测中原子方向协方差的建模。传统的GNN在消息传递过程中使用共享的变换矩阵，忽略了不同边之间的差异性，限制了模型的表达能力。因此，如何有效地利用矩阵值表示（例如SPD矩阵）来捕捉节点之间的关系，并设计能够处理这种矩阵值特征的图神经网络是一个关键问题。

核心思路：本文的核心思路是在对称正定（SPD）矩阵流形上构建Sheaf神经网络。SPD矩阵能够自然地表示二阶几何信息，例如方向之间的协方差。通过在SPD流形上定义Sheaf算子，可以实现边特定的变换，从而更好地捕捉不同边之间的差异性。利用SPD流形的李群结构，可以避免将SPD矩阵投影到欧几里得空间，从而保持其几何特性。

技术框架：该方法采用双流架构，包含两个主要分支：一个分支处理节点特征，另一个分支处理边特征。对于边特征，首先将输入的方向向量转换为SPD矩阵，然后使用SPD Sheaf卷积层进行消息传递。SPD Sheaf卷积层利用SPD流形的李群结构，定义了边特定的变换，从而实现了在SPD流形上的消息传递。最后，将节点特征和边特征进行融合，用于最终的预测任务。

关键创新：该方法最重要的技术创新点在于提出了首个在SPD流形上运行的Sheaf神经网络。与传统的基于欧几里得空间的Sheaf神经网络相比，该方法能够直接处理矩阵值特征，并利用SPD流形的几何特性进行消息传递。此外，该方法还证明了SPD值Sheaf比欧几里得Sheaf更具表达力，能够表示向量值Sheaf无法表示的一致配置。

关键设计：在SPD Sheaf卷积层中，关键的设计在于如何定义边特定的变换。本文利用SPD流形的李群结构，将变换定义为李群元素在切空间上的指数映射。通过学习李群元素，可以实现边特定的变换。损失函数包括预测损失和正则化项，用于约束李群元素的范数，防止过拟合。网络深度和层数是重要的超参数，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

该方法在MoleculeNet基准测试的7个数据集中的6个上取得了SOTA性能。例如，在BACE数据集上，该方法相比现有最佳方法提升了超过2%。此外，实验结果还表明，该方法具有良好的深度鲁棒性，随着网络深度的增加，性能下降幅度较小，表明Sheaf框架能够有效缓解过平滑问题。

🎯 应用场景

该研究成果可广泛应用于需要二阶几何表示学习的领域，例如分子性质预测、材料科学、医学图像分析等。通过捕捉方向之间的关系，可以更准确地建模复杂系统的几何结构，从而提高预测精度和模型泛化能力。未来，该方法可以进一步扩展到其他流形上，以处理更复杂的几何数据。

📄 摘要（原文）

Graph neural networks face two fundamental challenges rooted in the linear structure of Euclidean vector spaces: (1) Current architectures represent geometry through vectors (directions, gradients), yet many tasks require matrix-valued representations that capture relationships between directions-such as how atomic orientations covary in a molecule. These second-order representations are naturally captured by points on the symmetric positive definite matrices (SPD) manifold; (2) Standard message passing applies shared transformations across edges. Sheaf neural networks address this via edge-specific transformations, but existing formulations remain confined to vector spaces and therefore cannot propagate matrix-valued features. We address both challenges by developing the first sheaf neural network operates natively on the SPD manifold. Our key insight is that the SPD manifold admits a Lie group structure, enabling well-posed analogs of sheaf operators without projecting to Euclidean space. Theoretically, we prove that SPD-valued sheaves are strictly more expressive than Euclidean sheaves: they admit consistent configurations (global sections) that vector-valued sheaves cannot represent, directly translating to richer learned representations. Empirically, our sheaf convolution transforms effectively rank-1 directional inputs into full-rank matrices encoding local geometric structure. Our dual-stream architecture achieves SOTA on 6/7 MoleculeNet benchmarks, with the sheaf framework providing consistent depth robustness.

Sheaf Neural Networks on SPD Manifolds: Second-Order Geometric Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理