Subgraph-Aware Training of Language Models for Knowledge Graph Completion Using Structure-Aware Contrastive Learning

📄 arXiv: 2407.12703v5 📥 PDF

作者: Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim

分类: cs.CL

发布日期: 2024-07-17 (更新: 2025-01-31)

备注: Accepted to The Web Conference 2025


💡 一句话要点

提出SATKGC框架,利用子图感知训练提升语言模型在知识图谱补全任务上的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识图谱补全 预训练语言模型 对比学习 子图感知 结构化学习

📋 核心要点

  1. 现有基于预训练语言模型的知识图谱补全方法忽略了知识图谱的结构信息,导致模型性能受限。
  2. SATKGC框架通过子图感知的mini-batch构建和对比学习,显式地将知识图谱的结构信息融入到模型训练中。
  3. 在三个知识图谱补全基准数据集上的实验表明,SATKGC框架显著优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种用于知识图谱补全(KGC)的子图感知训练框架(SATKGC),旨在提升预训练语言模型(PLM)在该任务上的表现。现有基于PLM的方法主要关注文本信息的编码,忽略了知识图谱的长尾特性和各种拓扑结构(如子图、最短路径和度)。我们认为这是PLM在KGC任务中获得更高准确率的主要障碍。SATKGC包含两个关键思想:(i)子图感知的mini-batch构建,以鼓励困难负样本的采样,并缓解训练期间实体出现频率的不平衡;(ii)新的对比学习方法,侧重于更困难的批内负三元组,以及在知识图谱结构属性方面更困难的正三元组。据我们所知,这是第一个将知识图谱的结构归纳偏置全面融入到PLM微调中的研究。在三个KGC基准数据集上的大量实验证明了SATKGC的优越性。代码已开源。

🔬 方法详解

问题定义:知识图谱补全(KGC)旨在预测知识图谱中缺失的关系三元组。现有基于预训练语言模型(PLM)的方法主要关注文本信息的编码,忽略了知识图谱固有的结构信息,例如实体的度、子图结构等。这种忽略导致模型难以处理长尾实体和关系,限制了模型的泛化能力。

核心思路:本文的核心思路是将知识图谱的结构信息融入到PLM的训练过程中,从而提高模型对知识图谱结构的感知能力。具体来说,通过子图感知的mini-batch构建,使得每个batch包含结构相似的三元组,从而鼓励模型学习结构相关的表示。同时,设计结构感知的对比学习目标,使得模型能够区分结构相似但语义不同的三元组。

技术框架:SATKGC框架主要包含两个模块:子图感知的mini-batch构建模块和结构感知的对比学习模块。首先,子图感知的mini-batch构建模块根据知识图谱的结构信息将三元组划分到不同的子图中,然后从每个子图中采样三元组构建mini-batch。其次,结构感知的对比学习模块利用PLM编码三元组,并计算三元组之间的相似度。然后,根据结构信息选择困难负样本和困难正样本,并利用对比学习目标优化模型。

关键创新:本文的关键创新在于将知识图谱的结构信息显式地融入到PLM的训练过程中。具体来说,子图感知的mini-batch构建和结构感知的对比学习是两个关键创新点。子图感知的mini-batch构建能够有效地缓解训练数据的不平衡问题,并鼓励模型学习结构相关的表示。结构感知的对比学习能够使得模型区分结构相似但语义不同的三元组,从而提高模型的判别能力。

关键设计:在子图感知的mini-batch构建中,使用图神经网络(GNN)对知识图谱进行编码,然后根据GNN的输出将三元组划分到不同的子图中。在结构感知的对比学习中,使用余弦相似度作为三元组之间的相似度度量。困难负样本的选择基于三元组的结构相似度,选择结构相似但语义不同的三元组作为困难负样本。损失函数采用InfoNCE损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SATKGC在三个知识图谱补全基准数据集(WN18RR, FB15k-237, and NELL995)上均取得了显著的性能提升。例如,在WN18RR数据集上,SATKGC的MRR指标相比于现有最佳方法提升了超过3个百分点。消融实验验证了子图感知的mini-batch构建和结构感知的对比学习的有效性。

🎯 应用场景

该研究成果可应用于知识图谱补全、关系抽取、实体链接等任务,有助于构建更完整、准确的知识图谱。在智能问答、推荐系统、搜索引擎等领域具有广泛的应用前景,能够提升这些系统的智能化水平和服务质量。未来,该方法可以扩展到其他图结构数据,例如社交网络、生物网络等。

📄 摘要(原文)

Fine-tuning pre-trained language models (PLMs) has recently shown a potential to improve knowledge graph completion (KGC). However, most PLM-based methods focus solely on encoding textual information, neglecting the long-tailed nature of knowledge graphs and their various topological structures, e.g., subgraphs, shortest paths, and degrees. We claim that this is a major obstacle to achieving higher accuracy of PLMs for KGC. To this end, we propose a Subgraph-Aware Training framework for KGC (SATKGC) with two ideas: (i) subgraph-aware mini-batching to encourage hard negative sampling and to mitigate an imbalance in the frequency of entity occurrences during training, and (ii) new contrastive learning to focus more on harder in-batch negative triples and harder positive triples in terms of the structural properties of the knowledge graph. To the best of our knowledge, this is the first study to comprehensively incorporate the structural inductive bias of the knowledge graph into fine-tuning PLMs. Extensive experiments on three KGC benchmarks demonstrate the superiority of SATKGC. Our code is available.