Graph Alignment via Dual-Pass Spectral Encoding and Latent Space Communication
作者: Maysam Behmanesh, Erkan Turan, Maks Ovsjanikov
分类: cs.LG, cs.AI, cs.CV
发布日期: 2025-09-11 (更新: 2025-09-27)
备注: 23 pages
💡 一句话要点
提出双通道谱编码与潜在空间通信的图对齐框架,提升节点区分性与几何一致性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 图对齐 谱编码 几何一致性 函数映射 无监督学习
📋 核心要点
- 现有图对齐方法易受GNN过度平滑影响,导致节点区分性降低,且潜在空间易错位。
- 提出双通道谱编码器,结合低通和高通滤波器,增强节点区分性并感知图结构。
- 引入几何感知函数映射模块,学习双射等距变换,确保潜在空间几何一致性,实验效果显著。
📝 摘要(中文)
图对齐是识别多个图之间对应节点的问题,在许多应用中至关重要。现有的大多数无监督方法将节点特征嵌入到潜在表示中,以便在没有ground-truth对应关系的情况下进行跨图比较。然而,这些方法存在两个关键限制:基于GNN的嵌入中由于过度平滑导致的节点区分性降低,以及由结构噪声、特征异构性和训练不稳定性导致的跨图潜在空间错位,最终导致不可靠的节点对应关系。我们提出了一种新的图对齐框架,该框架同时增强节点区分性并强制执行潜在空间中的几何一致性。我们的方法引入了一个双通道编码器,它结合了低通和高通谱滤波器,以生成既具有结构感知能力又具有高度区分性的嵌入。为了解决潜在空间错位问题,我们结合了一个几何感知函数映射模块,该模块学习图嵌入之间的双射和等距变换,确保不同表示之间的一致几何关系。在图基准上的大量实验表明,我们的方法始终优于现有的无监督对齐基线,对结构不一致和具有挑战性的对齐场景表现出卓越的鲁棒性。此外,在使用各种预训练模型对视觉-语言基准进行全面评估表明,我们的框架有效地推广到图领域之外,从而能够对视觉和语言表示进行无监督对齐。
🔬 方法详解
问题定义:论文旨在解决无监督图对齐问题,即在没有节点对应关系ground truth的情况下,找到多个图之间对应的节点。现有方法,特别是基于GNN的方法,容易受到过度平滑的影响,导致节点特征区分性降低。此外,由于结构噪声、特征异构性和训练不稳定性,不同图的潜在空间可能错位,导致对齐结果不准确。
核心思路:论文的核心思路是同时增强节点区分性并强制执行潜在空间中的几何一致性。通过结合低通和高通谱滤波器,可以生成既具有结构感知能力又具有高度区分性的节点嵌入。通过学习图嵌入之间的双射和等距变换,可以确保不同图的潜在空间具有一致的几何关系,从而提高对齐的准确性。
技术框架:该框架包含一个双通道编码器和一个几何感知函数映射模块。双通道编码器首先使用低通滤波器提取图的全局结构信息,然后使用高通滤波器增强节点特征的区分性。几何感知函数映射模块学习不同图嵌入之间的函数映射,该映射保持节点之间的几何关系不变。整个框架通过最小化对齐损失和几何一致性损失进行训练。
关键创新:该论文的关键创新在于双通道谱编码器和几何感知函数映射模块的结合。双通道谱编码器能够有效地平衡节点嵌入的结构感知能力和区分性。几何感知函数映射模块能够学习不同图嵌入之间的几何一致性,从而提高对齐的鲁棒性。
关键设计:双通道编码器使用ChebNets作为低通和高通滤波器。几何感知函数映射模块使用神经网络学习函数映射,并使用等距损失来强制执行几何一致性。对齐损失使用余弦相似度来衡量节点嵌入之间的相似性。框架使用Adam优化器进行训练,学习率设置为0.001,batch size设置为64。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个图对齐基准数据集上显著优于现有无监督方法。例如,在Cora数据集上,该方法的准确率比最佳基线提高了5%以上。此外,该方法在视觉-语言对齐任务上也取得了良好的效果,证明了其泛化能力。
🎯 应用场景
该研究成果可应用于社交网络分析、生物信息学、计算机视觉和自然语言处理等领域。例如,可以用于跨社交平台的用户身份识别、蛋白质相互作用网络的比对、图像和文本的跨模态检索等。该方法能够提升跨图数据分析的准确性和效率,具有重要的实际应用价值和潜在的未来影响。
📄 摘要(原文)
Graph alignment, the problem of identifying corresponding nodes across multiple graphs, is fundamental to numerous applications. Most existing unsupervised methods embed node features into latent representations to enable cross-graph comparison without ground-truth correspondences. However, these methods suffer from two critical limitations: the degradation of node distinctiveness due to oversmoothing in GNN-based embeddings, and the misalignment of latent spaces across graphs caused by structural noise, feature heterogeneity, and training instability, ultimately leading to unreliable node correspondences. We propose a novel graph alignment framework that simultaneously enhances node distinctiveness and enforces geometric consistency across latent spaces. Our approach introduces a dual-pass encoder that combines low-pass and high-pass spectral filters to generate embeddings that are both structure-aware and highly discriminative. To address latent space misalignment, we incorporate a geometry-aware functional map module that learns bijective and isometric transformations between graph embeddings, ensuring consistent geometric relationships across different representations. Extensive experiments on graph benchmarks demonstrate that our method consistently outperforms existing unsupervised alignment baselines, exhibiting superior robustness to structural inconsistencies and challenging alignment scenarios. Additionally, comprehensive evaluation on vision-language benchmarks using diverse pretrained models shows that our framework effectively generalizes beyond graph domains, enabling unsupervised alignment of vision and language representations.