Graphlets as Building Blocks for Structural Vocabulary in Knowledge Graph Foundation Models
作者: Kossi Amouzouvi, Robert Wardenga, Jens Lehmann, Sahar Vahdati
分类: cs.AI, cs.LG
发布日期: 2026-05-07
💡 一句话要点
提出基于Graphlet结构词汇的知识图谱基础模型,提升零样本迁移能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 基础模型 Graphlet 零样本学习 链接预测
📋 核心要点
- 知识图谱缺乏像图像和文本那样固定的网格结构,导致知识图谱基础模型难以识别结构不变性,限制了其跨图谱的迁移能力。
- 论文核心思想是将知识图谱中的graphlet(小连接图)视为结构token,构建graphlet词汇表,从而捕捉不同知识图谱之间的结构相似性。
- 实验结果表明,通过添加简单的graphlet到词汇表中,所提出的框架在零样本链接预测任务上优于现有的知识图谱基础模型。
📝 摘要(中文)
知识图谱基础模型(KGFMs)在跨未见知识图谱中迁移表示的能力受限,因为缺乏通用的token集合。本文提出了一种基于graphlet的、模型无关的框架,将graphlet视为异构知识图谱中重复出现的结构token。该框架通过模式匹配在关系之间挖掘知识图谱。具体而言,考虑了闭合和开放的2-path和3-path,以及星型graphlet,以获得鲁棒的不变性。在来自广泛领域的51个知识图谱上,对零样本归纳和转导链接预测进行了评估。实验表明,将简单的graphlet添加到词汇表中,可以使模型优于先前的KGFMs。
🔬 方法详解
问题定义:现有的知识图谱基础模型(KGFMs)在知识迁移方面存在局限性。主要痛点在于,知识图谱的结构不规则,缺乏像图像像素或文本token那样通用的、固定网格的表示方式,难以捕捉不同知识图谱之间的结构不变性,从而限制了模型在未见过的知识图谱上的泛化能力。
核心思路:论文的核心思路是将知识图谱分解为更小的、可重复出现的结构单元,即graphlet。通过将graphlet视为结构token,构建一个graphlet词汇表,从而将不同知识图谱映射到同一个结构空间。这样,模型就可以学习到与具体知识图谱无关的、通用的结构表示,从而实现更好的知识迁移。
技术框架:该框架主要包含以下几个阶段:1) Graphlet提取:从知识图谱中提取预定义的graphlet类型,例如2-path、3-path和星型graphlet。2) Graphlet词汇表构建:基于提取的graphlet,构建一个包含所有不同graphlet类型的词汇表。3) 知识图谱表示:将每个知识图谱表示为一个graphlet频率向量,其中每个维度对应于词汇表中的一个graphlet类型。4) 模型训练与预测:使用graphlet频率向量作为输入,训练链接预测模型,并在未见过的知识图谱上进行零样本预测。
关键创新:该论文最重要的创新点在于将graphlet作为知识图谱的结构token,并构建了相应的词汇表。与以往直接学习节点或关系嵌入的方法不同,该方法关注的是知识图谱的局部结构,从而能够更好地捕捉不同知识图谱之间的结构相似性。这种基于结构token的表示方法,使得模型能够学习到更通用的知识表示,从而实现更好的零样本迁移能力。
关键设计:论文中考虑了闭合和开放的2-path和3-path,以及星型graphlet作为基本的结构token。选择这些graphlet的原因是它们相对简单,但能够捕捉知识图谱中常见的结构模式。在实验中,使用了简单的线性模型进行链接预测,并使用graphlet频率向量作为输入特征。损失函数采用标准的交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在51个知识图谱上进行了评估,并在零样本归纳和转导链接预测任务上取得了显著的性能提升。与现有的知识图谱基础模型相比,该方法在多个数据集上取得了更好的结果,证明了基于graphlet结构词汇的有效性。具体性能数据未知,但结论是优于现有KGFMs。
🎯 应用场景
该研究成果可应用于多种知识图谱相关的任务,例如知识图谱补全、知识图谱对齐、知识图谱推理等。通过利用graphlet结构信息,可以提升模型在低资源场景下的性能,并实现跨领域知识迁移。该方法在生物医学、金融等领域具有潜在的应用价值,有助于构建更完善、更智能的知识图谱系统。
📄 摘要(原文)
Foundation models excel at language, where sentences become tokens, and vision, where images become pixels, because both reduce to discrete symbols on a shared, fixed grid. Knowledge Graphs share the discreteness, but not the geometry. Their entities and relations are discrete symbols, yet their arrangement is relational and lacks a common, fixed grid. Knowledge Graphs (KGs) share the discreteness, but not the geometry. They form irregular, non-Euclidean topologies whose local neighborhoods differ from graph to graph. Therefore, Knowledge Graph Foundation Models (KGFMs) rely on identifying structural invariances to produce transferable representations. Without a universal token set, KGFMs are limited in their ability to transfer representations across unseen KGs. We close this gap by treating graphlets, small connected graphs, as structural tokens that recur in heterogeneous KGs. In this paper, We introduce a model-agnostic framework based on a vocabulary of graphlets that mines a KG between relations via pattern matching. In particular, we considered closed and open 2- and 3-path, and star graphlets, to obtain robust invariances. The framework is evaluated on 51 KGs from a wide range of domains, for zero-shot inductive and transductive link prediction. Experiments show that adding simple graphlets to the vocabulary yields models that outperform prior KGFMs.