Transformer-Based Multimodal Knowledge Graph Completion with Link-Aware Contexts

📄 arXiv: 2501.15688v2 📥 PDF

作者: Haodi Ma, Dzmitry Kasinets, Daisy Zhe Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-26 (更新: 2025-09-15)


💡 一句话要点

提出基于Transformer的多模态知识图谱补全方法,利用链接感知上下文提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态知识图谱补全 Transformer 视觉-语言模型 知识图谱嵌入 跨模态上下文 序列到序列 链接预测

📋 核心要点

  1. 现有MMKGC方法模型体积大,多模态信息融合效率低,难以应用于实际大规模图谱。
  2. 利用预训练VLM将实体及其邻居的视觉信息转化为文本序列,为Transformer模型提供跨模态上下文。
  3. 将知识图谱补全任务转化为序列到序列的任务,通过微调Transformer模型实现高效的知识补全。

📝 摘要(中文)

本文提出了一种新的多模态知识图谱补全(MMKGC)方法,该方法利用基于Transformer的知识图谱嵌入(KGE)模型,并结合预训练视觉-语言模型(VLM)生成的跨模态上下文。现有MMKGC方法通常扩展传统KGE模型,需要为每个实体创建嵌入,导致模型庞大且多模态信息集成效率低下。本文将KGC视为序列到序列的任务,通过微调模型和生成的跨模态上下文来实现。该方法显著减小了模型尺寸,并在多个大规模数据集上取得了具有竞争力的性能,且超参数调整量极小。

🔬 方法详解

问题定义:论文旨在解决多模态知识图谱补全(MMKGC)问题。现有方法,特别是基于知识图谱嵌入(KGE)的扩展方法,需要为每个实体学习嵌入表示,导致模型参数量巨大,难以扩展到大规模知识图谱。此外,这些方法在有效融合多模态信息方面存在局限性。

核心思路:论文的核心思路是利用预训练的视觉-语言模型(VLM)提取实体及其邻居的视觉信息,并将其转化为文本形式的跨模态上下文。然后,将知识图谱补全任务建模为序列到序列的任务,通过微调Transformer模型,利用这些跨模态上下文进行关系预测。这样可以避免为每个实体学习嵌入,从而显著减小模型尺寸。

技术框架:整体框架包含以下几个主要步骤:1) 利用预训练的VLM(如CLIP)提取实体及其邻居的视觉特征。2) 将提取的视觉特征转化为文本描述,形成链接感知的跨模态上下文。3) 将知识图谱补全任务建模为序列到序列的任务,输入为头实体、关系和上下文,输出为尾实体。4) 使用Transformer模型(如BART或T5)对序列进行编码和解码,预测缺失的尾实体。

关键创新:论文的关键创新在于利用预训练的VLM生成跨模态上下文,并将其融入到Transformer-based的知识图谱补全模型中。与传统的KGE方法相比,该方法避免了为每个实体学习嵌入,从而显著减小了模型尺寸。此外,通过利用VLM提取的视觉信息,可以有效提升模型在多模态知识图谱上的补全性能。

关键设计:论文的关键设计包括:1) 使用预训练的VLM(如CLIP)提取视觉特征,并使用特定的prompt工程将视觉特征转化为文本描述。2) 将知识图谱三元组(头实体,关系,尾实体)和跨模态上下文拼接成输入序列。3) 使用标准的序列到序列损失函数(如交叉熵损失)对Transformer模型进行微调。4) 采用适当的超参数设置,如学习率、batch size等,以优化模型的训练效果。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在多个大规模多模态知识图谱数据集上取得了具有竞争力的性能。与传统的KGE方法相比,该方法显著减小了模型尺寸,同时在补全精度上取得了相当甚至更好的结果。此外,该方法对超参数调整的敏感度较低,易于部署和应用。

🎯 应用场景

该研究成果可应用于智能问答、推荐系统、信息检索等领域。通过利用多模态信息,可以更准确地理解用户意图,提供更个性化的服务。例如,在电商领域,可以根据商品的图片和描述,更准确地推荐用户可能感兴趣的商品。在医疗领域,可以结合医学图像和文本信息,辅助医生进行诊断。

📄 摘要(原文)

Multimodal knowledge graph completion (MMKGC) aims to predict missing links in multimodal knowledge graphs (MMKGs) by leveraging information from various modalities alongside structural data. Existing MMKGC approaches primarily extend traditional knowledge graph embedding (KGE) models, which often require creating an embedding for every entity. This results in large model sizes and inefficiencies in integrating multimodal information, particularly for real-world graphs. Meanwhile, Transformer-based models have demonstrated competitive performance in knowledge graph completion (KGC). However, their focus on single-modal knowledge limits their capacity to utilize cross-modal information. Recently, Large vision-language models (VLMs) have shown potential in cross-modal tasks but are constrained by the high cost of training. In this work, we propose a novel approach that integrates Transformer-based KGE models with cross-modal context generated by pre-trained VLMs, thereby extending their applicability to MMKGC. Specifically, we employ a pre-trained VLM to transform relevant visual information from entities and their neighbors into textual sequences. We then frame KGC as a sequence-to-sequence task, fine-tuning the model with the generated cross-modal context. This simple yet effective method significantly reduces model size compared to traditional KGE approaches while achieving competitive performance across multiple large-scale datasets with minimal hyperparameter tuning.