Teach Harder, Learn Poorer: Rethinking Hard Sample Distillation for GNN-to-MLP Knowledge Distillation
作者: Lirong Wu, Yunfan Liu, Haitao Lin, Yufei Huang, Stan Z. Li
分类: cs.LG, cs.AI
发布日期: 2024-07-20
💡 一句话要点
提出硬度感知蒸馏框架HGMD,解决GNN到MLP知识蒸馏中的硬样本瓶颈问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图神经网络 知识蒸馏 多层感知机 硬样本挖掘 非参数方法
📋 核心要点
- 现有GNN到MLP的知识蒸馏方法在处理硬样本时存在瓶颈,未能有效区分知识本身的复杂度和蒸馏难度。
- 提出HGMD框架,解耦知识硬度和蒸馏硬度,使用非参数方法分别估计,从而实现更有效的知识迁移。
- 实验表明,HGMD在多个数据集上显著优于现有方法,甚至超越了教师GNN的性能,实现了知识蒸馏的有效提升。
📝 摘要(中文)
为了弥合强大的图神经网络(GNN)和轻量级多层感知机(MLP)之间的差距,GNN到MLP的知识蒸馏(KD)旨在将知识从训练有素的教师GNN提炼到学生MLP中。本文从硬度的角度重新审视教师GNN中的知识样本(节点),并指出硬样本蒸馏可能是现有图KD算法的主要性能瓶颈。GNN到MLP的KD涉及两种不同类型的硬度:一种是与学生无关的知识硬度,描述了GNN知识的内在复杂性;另一种是与学生相关的蒸馏硬度,描述了教师到学生的蒸馏难度。然而,现有的大部分工作只关注其中一个方面,或者将它们视为同一件事。本文提出了一个简单而有效的硬度感知GNN到MLP蒸馏(HGMD)框架,该框架解耦了这两种硬度,并使用非参数方法估计它们。最后,进一步提出了两种硬度感知蒸馏方案(即HGMD-weight和HGMD-mixup),以将硬度感知知识从教师GNN提炼到学生MLP的相应节点中。作为非参数蒸馏,HGMD不涉及学生MLP之外的任何额外的可学习参数,但它仍然优于大多数最先进的竞争对手。在七个真实世界的数据集上,HGMD-mixup比原始MLP提高了12.95%,并且比其教师GNN提高了2.48%。
🔬 方法详解
问题定义:现有GNN到MLP的知识蒸馏方法在处理图数据时,没有充分考虑节点本身知识的复杂程度(知识硬度)以及从GNN到MLP的迁移难度(蒸馏硬度)。现有方法要么只关注其中一个硬度,要么将两者混为一谈,导致蒸馏效果不佳,无法充分发挥MLP的潜力。
核心思路:核心在于解耦知识硬度和蒸馏硬度,并分别进行建模。通过非参数方法估计这两种硬度,然后利用这些硬度信息指导知识蒸馏过程,使得MLP能够更好地学习GNN中的复杂知识。这样可以更有效地将GNN的知识迁移到MLP,提高MLP的性能。
技术框架:HGMD框架主要包含以下几个阶段:1) 训练好的教师GNN;2) 节点硬度估计模块,分别估计知识硬度和蒸馏硬度;3) 硬度感知蒸馏模块,利用估计的硬度信息指导MLP的学习。框架采用非参数方法,无需额外的可学习参数。
关键创新:最重要的创新点在于解耦了知识硬度和蒸馏硬度,并提出了相应的非参数估计方法。与现有方法相比,HGMD能够更准确地捕捉到知识的复杂性和迁移难度,从而实现更有效的知识蒸馏。这种解耦的思想为知识蒸馏领域提供了一种新的视角。
关键设计:HGMD框架的关键设计包括:1) 使用非参数方法(如K近邻)估计知识硬度和蒸馏硬度;2) 提出了两种硬度感知蒸馏方案:HGMD-weight,根据硬度调整损失函数的权重;HGMD-mixup,利用mixup增强技术,生成硬度感知的训练样本。这些设计使得HGMD能够有效地利用硬度信息,提升MLP的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HGMD框架在七个真实世界的数据集上显著优于现有的GNN到MLP知识蒸馏方法。HGMD-mixup方法平均比原始MLP提高了12.95%,甚至超越了教师GNN的性能,平均提升了2.48%。这些结果验证了HGMD框架的有效性,证明了硬度感知蒸馏在GNN到MLP知识蒸馏中的重要作用。
🎯 应用场景
该研究成果可应用于各种需要将复杂图结构数据中的知识迁移到轻量级MLP模型的场景,例如移动设备上的图数据分析、资源受限环境下的图神经网络部署等。通过知识蒸馏,可以在保证模型性能的同时,降低计算成本和存储需求,具有重要的实际应用价值。
📄 摘要(原文)
To bridge the gaps between powerful Graph Neural Networks (GNNs) and lightweight Multi-Layer Perceptron (MLPs), GNN-to-MLP Knowledge Distillation (KD) proposes to distill knowledge from a well-trained teacher GNN into a student MLP. In this paper, we revisit the knowledge samples (nodes) in teacher GNNs from the perspective of hardness, and identify that hard sample distillation may be a major performance bottleneck of existing graph KD algorithms. The GNN-to-MLP KD involves two different types of hardness, one student-free knowledge hardness describing the inherent complexity of GNN knowledge, and the other student-dependent distillation hardness describing the difficulty of teacher-to-student distillation. However, most of the existing work focuses on only one of these aspects or regards them as one thing. This paper proposes a simple yet effective Hardness-aware GNN-to-MLP Distillation (HGMD) framework, which decouples the two hardnesses and estimates them using a non-parametric approach. Finally, two hardness-aware distillation schemes (i.e., HGMD-weight and HGMD-mixup) are further proposed to distill hardness-aware knowledge from teacher GNNs into the corresponding nodes of student MLPs. As non-parametric distillation, HGMD does not involve any additional learnable parameters beyond the student MLPs, but it still outperforms most of the state-of-the-art competitors. HGMD-mixup improves over the vanilla MLPs by 12.95% and outperforms its teacher GNNs by 2.48% averaged over seven real-world datasets.