Towards Continual Knowledge Graph Embedding via Incremental Distillation

📄 arXiv: 2405.04453v1 📥 PDF

作者: Jiajun Liu, Wenjun Ke, Peng Wang, Ziyu Shang, Jinhua Gao, Guozheng Li, Ke Ji, Yanhe Liu

分类: cs.AI

发布日期: 2024-05-07

备注: Accepted by AAAI 2024


💡 一句话要点

提出基于增量蒸馏的知识图谱持续学习方法IncDE,有效利用图结构信息。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 持续学习 知识图谱嵌入 增量学习 知识蒸馏 图结构 分层学习

📋 核心要点

  1. 现有持续知识图谱嵌入方法忽略了知识图谱的显式图结构,导致学习效率低和灾难性遗忘。
  2. 提出基于增量蒸馏的IncDE方法,通过分层学习新三元组和增量蒸馏旧知识,有效利用图结构信息。
  3. 实验结果表明,IncDE在MRR指标上优于现有方法,增量蒸馏机制贡献了0.2%-6.5%的性能提升。

📝 摘要(中文)

传统的知识图谱嵌入(KGE)方法通常需要保存整个知识图谱(KG),当新知识出现时,训练成本很高。为了解决这个问题,提出了持续知识图谱嵌入(CKGE)任务,通过高效地学习新知识,同时保持良好的旧知识来训练KGE模型。然而,KG中显式的图结构对于上述目标至关重要,但现有CKGE方法在很大程度上忽略了这一点。一方面,现有方法通常以随机顺序学习新的三元组,破坏了新KG的内部结构。另一方面,旧的三元组被赋予相同的优先级进行保存,未能有效地缓解灾难性遗忘。本文提出了一种基于增量蒸馏(IncDE)的CKGE竞争方法,该方法充分利用了KG中显式的图结构。首先,为了优化学习顺序,我们引入了一种分层策略,对新的三元组进行分层学习排序。通过结合层间和层内顺序,新的三元组根据图结构特征被分组到不同的层中。其次,为了有效地保存旧知识,我们设计了一种新的增量蒸馏机制,促进了实体表示从前一层到下一层的无缝转移,从而促进了旧知识的保存。最后,我们采用两阶段训练范式,以避免未充分训练的新知识对旧知识的过度破坏。实验结果表明,IncDE优于最先进的基线方法。值得注意的是,增量蒸馏机制有助于平均倒数排名(MRR)得分提高0.2%-6.5%。

🔬 方法详解

问题定义:论文旨在解决持续知识图谱嵌入(CKGE)问题,即如何在不断涌现新知识的情况下,高效地学习新知识并同时保留已有的旧知识。现有CKGE方法的痛点在于忽略了知识图谱中固有的图结构信息,导致学习新知识时破坏了图的内部结构,并且对旧知识的保存没有区分优先级,难以有效缓解灾难性遗忘现象。

核心思路:论文的核心思路是充分利用知识图谱的图结构信息来指导持续学习过程。具体来说,通过分层学习新知识,并采用增量蒸馏的方式来保留旧知识,从而在学习效率和知识保留之间取得平衡。分层学习的目的是按照图结构的重要性对新知识进行排序,优先学习重要的知识。增量蒸馏的目的是将旧知识逐步迁移到新的模型中,避免灾难性遗忘。

技术框架:IncDE方法采用两阶段训练范式。第一阶段是分层学习阶段,将新的三元组按照图结构特征进行分层,然后逐层学习。第二阶段是知识蒸馏阶段,利用增量蒸馏机制将旧知识迁移到新模型中。整体流程如下:1) 对新三元组进行分层排序;2) 逐层学习新知识;3) 利用增量蒸馏机制保留旧知识;4) 重复2和3直到所有新知识学习完毕。

关键创新:论文的关键创新点在于提出了基于图结构的分层学习策略和增量蒸馏机制。分层学习策略通过考虑三元组在图中的重要性来优化学习顺序,避免随机学习带来的结构破坏。增量蒸馏机制通过逐步迁移知识来避免灾难性遗忘,并且可以根据知识的重要性进行差异化保留。

关键设计:分层学习策略采用层间和层内排序相结合的方式。层间排序基于三元组连接的实体数量,连接实体越多的三元组越重要。层内排序基于三元组的置信度,置信度越高的三元组越重要。增量蒸馏机制采用知识蒸馏损失函数,鼓励新模型的实体表示与旧模型的实体表示保持一致。两阶段训练范式避免了新知识训练不足对旧知识的过度影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IncDE方法在持续知识图谱嵌入任务上取得了显著的性能提升。与最先进的基线方法相比,IncDE在MRR指标上提高了0.2%-6.5%。消融实验表明,增量蒸馏机制是性能提升的关键因素。此外,实验还验证了分层学习策略的有效性,证明了利用图结构信息可以有效提升持续学习的效果。

🎯 应用场景

该研究成果可应用于需要持续学习的知识图谱场景,例如:在线问答系统、智能推荐系统、知识图谱补全等。通过持续学习新知识,可以不断提升系统的准确性和覆盖范围,更好地满足用户的需求。该方法还可以应用于其他需要持续学习的图结构数据,具有广泛的应用前景。

📄 摘要(原文)

Traditional knowledge graph embedding (KGE) methods typically require preserving the entire knowledge graph (KG) with significant training costs when new knowledge emerges. To address this issue, the continual knowledge graph embedding (CKGE) task has been proposed to train the KGE model by learning emerging knowledge efficiently while simultaneously preserving decent old knowledge. However, the explicit graph structure in KGs, which is critical for the above goal, has been heavily ignored by existing CKGE methods. On the one hand, existing methods usually learn new triples in a random order, destroying the inner structure of new KGs. On the other hand, old triples are preserved with equal priority, failing to alleviate catastrophic forgetting effectively. In this paper, we propose a competitive method for CKGE based on incremental distillation (IncDE), which considers the full use of the explicit graph structure in KGs. First, to optimize the learning order, we introduce a hierarchical strategy, ranking new triples for layer-by-layer learning. By employing the inter- and intra-hierarchical orders together, new triples are grouped into layers based on the graph structure features. Secondly, to preserve the old knowledge effectively, we devise a novel incremental distillation mechanism, which facilitates the seamless transfer of entity representations from the previous layer to the next one, promoting old knowledge preservation. Finally, we adopt a two-stage training paradigm to avoid the over-corruption of old knowledge influenced by under-trained new knowledge. Experimental results demonstrate the superiority of IncDE over state-of-the-art baselines. Notably, the incremental distillation mechanism contributes to improvements of 0.2%-6.5% in the mean reciprocal rank (MRR) score.