Invariant Graph Learning Meets Information Bottleneck for Out-of-Distribution Generalization

作者: Wenyu Mao, Jiancan Wu, Haoyang Liu, Yongduo Sui, Xiang Wang

分类: cs.LG, cs.AI, stat.ML

发布日期: 2024-08-03 (更新: 2025-02-13)

备注: The article has been accepted by Frontiers of Computer Science (FCS), with the DOI: {10.1007/s11704-025-40798-3}

🔗 代码/项目: GITHUB

💡 一句话要点

提出InfoIGL框架，通过信息瓶颈和不变图学习提升图神经网络的OOD泛化能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图神经网络 分布外泛化 不变学习 信息瓶颈 对比学习

📋 核心要点

图神经网络在分布外泛化方面面临挑战，现有方法如数据增强或因果干预存在破坏不变性或缺乏监督信号的问题。
InfoIGL框架利用信息瓶颈理论压缩任务无关信息，并通过多层次对比学习最大化同类图之间的互信息，保留不变特征。
实验结果表明，InfoIGL在合成和真实数据集上实现了最先进的OOD泛化性能，且无需不变性的监督信号。

📝 摘要（中文）

图神经网络(GNNs)在分布外(OOD)泛化方面面临重大挑战，因为它们在分布偏移下性能会严重下降。不变学习旨在提取跨不同分布的不变特征，最近已成为OOD生成的一种有前途的方法。尽管不变学习在欧几里得数据（如图像）的OOD问题中取得了巨大成功，但图数据中的探索仍受到图的复杂性的限制。现有的研究，如数据增强或因果干预，要么在图操作过程中破坏不变性，要么由于缺乏因果部分的监督信号而面临可靠性问题。本文提出了一种名为基于信息瓶颈理论的不变图学习(InfoIGL)的新框架，以提取图的不变特征，并增强模型对未见分布的泛化能力。具体来说，InfoIGL引入了一个冗余过滤器来压缩与环境因素相关的任务无关信息。通过与我们设计的多层次对比学习合作，我们最大限度地提高了下游分类任务中同一类图之间的互信息，从而在很大程度上保留了用于预测的不变特征。InfoIGL的一个吸引人的特点是它强大的泛化能力，不依赖于不变性的监督信号。在合成和真实数据集上的实验表明，我们的方法在图分类任务的OOD泛化下实现了最先进的性能。源代码可在https://github.com/maowenyu-11/InfoIGL获得。

🔬 方法详解

问题定义：图神经网络在面对分布外(OOD)数据时，性能显著下降。现有的图数据增强方法可能引入噪声，破坏了图结构的不变性。因果干预方法则依赖于对因果关系的准确建模，但缺乏有效的监督信号来指导因果结构的发现和利用。因此，如何在没有明确监督的情况下，提取图数据中与任务相关的、且在不同分布下保持不变的特征，是一个关键问题。

核心思路：InfoIGL的核心思路是结合信息瓶颈原理和对比学习，显式地过滤掉与环境因素相关的冗余信息，同时最大化保留与任务相关的、且具有不变性的特征。通过信息瓶颈，模型能够学习到对环境变化不敏感的特征表示。对比学习则进一步增强了模型对同类样本不变特征的提取能力。

技术框架：InfoIGL框架主要包含两个核心模块：冗余过滤器和多层次对比学习。首先，冗余过滤器利用信息瓶颈原理，压缩输入图的表示，去除与环境因素相关的冗余信息。然后，多层次对比学习在不同层次上（例如节点级别、图级别）进行对比，最大化同类图之间的互信息，从而保留不变特征。整个框架以端到端的方式进行训练，无需额外的监督信号。

关键创新：InfoIGL的关键创新在于将信息瓶颈原理与图神经网络相结合，并设计了多层次对比学习策略。与传统的数据增强或因果干预方法不同，InfoIGL直接在特征表示层面进行操作，显式地过滤掉冗余信息，从而避免了对图结构的直接修改可能带来的不变性破坏。此外，InfoIGL无需依赖额外的监督信号，使其更具通用性和实用性。

关键设计：InfoIGL的关键设计包括：1) 冗余过滤器的具体实现方式，例如可以使用一个编码器-解码器结构，并添加一个信息瓶颈约束；2) 多层次对比学习的具体策略，例如可以选择不同的对比损失函数（如InfoNCE），以及在哪些层次上进行对比；3) 如何平衡信息瓶颈的压缩程度和不变特征的保留程度，这可能需要调整相关的超参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InfoIGL在多个合成和真实世界的图分类数据集上，显著优于现有的OOD泛化方法。例如，在某些数据集上，InfoIGL的性能提升超过10%。更重要的是，InfoIGL在无需额外监督信号的情况下，也能取得优异的性能，这表明其具有很强的实用价值。

🎯 应用场景

InfoIGL框架可应用于各种图数据分析任务，尤其是在数据分布存在偏移的情况下。例如，在社交网络分析中，可以用于识别不同社交平台上的用户行为模式；在生物信息学中，可以用于预测不同环境下的基因表达；在化学信息学中，可以用于预测不同条件下的分子性质。该研究有助于提升图神经网络在实际应用中的鲁棒性和泛化能力。

📄 摘要（原文）

Graph out-of-distribution (OOD) generalization remains a major challenge in graph learning since graph neural networks (GNNs) often suffer from severe performance degradation under distribution shifts. Invariant learning, aiming to extract invariant features across varied distributions, has recently emerged as a promising approach for OOD generation. Despite the great success of invariant learning in OOD problems for Euclidean data (i.e., images), the exploration within graph data remains constrained by the complex nature of graphs. Existing studies, such as data augmentation or causal intervention, either suffer from disruptions to invariance during the graph manipulation process or face reliability issues due to a lack of supervised signals for causal parts. In this work, we propose a novel framework, called Invariant Graph Learning based on Information bottleneck theory (InfoIGL), to extract the invariant features of graphs and enhance models' generalization ability to unseen distributions. Specifically, InfoIGL introduces a redundancy filter to compress task-irrelevant information related to environmental factors. Cooperating with our designed multi-level contrastive learning, we maximize the mutual information among graphs of the same class in the downstream classification tasks, preserving invariant features for prediction to a great extent. An appealing feature of InfoIGL is its strong generalization ability without depending on supervised signal of invariance. Experiments on both synthetic and real-world datasets demonstrate that our method achieves state-of-the-art performance under OOD generalization for graph classification tasks. The source code is available at https://github.com/maowenyu-11/InfoIGL.

Invariant Graph Learning Meets Information Bottleneck for Out-of-Distribution Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理