Beyond Completion: A Foundation Model for General Knowledge Graph Reasoning
作者: Yin Hua, Zhiqiang Liu, Mingyang Chen, Zheng Fang, Chi Man Wong, Lingxiao Li, Chi Man Vong, Huajun Chen, Wen Zhang
分类: cs.CL, cs.AI
发布日期: 2025-05-28
备注: ACL 2025 Findings
💡 一句话要点
提出MERRY:一个用于通用知识图谱推理的基座模型,有效提升了KG内部和外部任务的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱 基座模型 知识图谱补全 知识图谱问答 多模态融合 消息传递 图神经网络
📋 核心要点
- 现有知识图谱基座模型研究主要集中于结构信息,限制了其在更具挑战性的KG外部任务中的应用。
- MERRY通过多视角条件消息传递(CMP)编码架构,融合结构和文本信息,弥合了模态之间的差距。
- 实验结果表明,MERRY在28个数据集上优于现有基线,展现了强大的KG内部推理和KG外部泛化能力。
📝 摘要(中文)
本文介绍了一个用于通用知识图谱推理的基座模型MERRY,并研究了其在两类任务中的性能:KG内部推理任务(例如,知识图谱补全,KGC)和KG外部任务(例如,知识图谱问答,KGQA)。MERRY不仅利用了知识图谱的结构信息,还利用了文本信息。具体来说,论文提出了一种多视角条件消息传递(CMP)编码架构,以弥合文本和结构模态之间的差距,从而实现它们的无缝集成。此外,论文还引入了一个动态残差融合模块,用于选择性地保留相关的文本信息,以及一个灵活的边缘评分机制,以适应不同的下游任务。在28个数据集上的综合评估表明,MERRY在大多数情况下优于现有的基线模型,展示了其在KG内部的强大推理能力以及对KG外部任务(如KGQA)的出色泛化能力。
🔬 方法详解
问题定义:现有知识图谱基座模型主要关注结构信息,忽略了文本信息,导致在知识图谱补全(KGC)等内部任务表现尚可,但在知识图谱问答(KGQA)等外部任务中泛化能力不足。痛点在于如何有效融合结构和文本信息,提升模型在KG外部任务中的表现。
核心思路:MERRY的核心思路是设计一个能够同时利用知识图谱的结构和文本信息的基座模型。通过多视角条件消息传递(CMP)编码架构,将文本信息融入到结构信息中,从而提升模型对知识图谱的理解和推理能力。动态残差融合模块用于选择性地保留相关文本信息,灵活的边缘评分机制则用于适应不同的下游任务。
技术框架:MERRY的整体架构包含以下几个主要模块:1) 多视角条件消息传递(CMP)编码器:用于融合结构和文本信息。2) 动态残差融合模块:用于选择性地保留相关文本信息。3) 灵活的边缘评分机制:用于适应不同的下游任务。整个流程是先通过CMP编码器对知识图谱进行编码,然后通过动态残差融合模块选择性地保留文本信息,最后通过边缘评分机制进行推理。
关键创新:MERRY最重要的技术创新点在于多视角条件消息传递(CMP)编码架构。与现有方法不同,CMP能够同时考虑结构和文本信息,并将文本信息融入到结构信息中,从而提升模型对知识图谱的理解和推理能力。此外,动态残差融合模块和灵活的边缘评分机制也进一步提升了模型的性能。
关键设计:CMP编码器使用多层消息传递机制,每一层都包含结构消息传递和文本消息传递。结构消息传递使用图神经网络(GNN)进行节点表示的更新,文本消息传递则使用Transformer模型对文本信息进行编码。动态残差融合模块使用注意力机制来选择性地保留相关文本信息。边缘评分机制则根据不同的下游任务进行调整,例如,在KGC任务中使用TransE评分函数,在KGQA任务中使用Bi-Encoder模型。
🖼️ 关键图片
📊 实验亮点
MERRY在28个数据集上进行了综合评估,结果表明其在大多数情况下优于现有的基线模型。例如,在KGQA任务上,MERRY的性能显著优于现有方法,证明了其强大的推理能力和泛化能力。具体提升幅度根据数据集和任务而异,但整体上MERRY都取得了显著的性能提升。
🎯 应用场景
MERRY作为知识图谱基座模型,可广泛应用于知识图谱补全、知识图谱问答、实体链接、关系抽取等领域。其强大的推理能力和泛化能力使其在智能问答、推荐系统、信息检索等实际应用中具有重要价值,并有望推动知识图谱相关技术的发展。
📄 摘要(原文)
In natural language processing (NLP) and computer vision (CV), the successful application of foundation models across diverse tasks has demonstrated their remarkable potential. However, despite the rich structural and textual information embedded in knowledge graphs (KGs), existing research of foundation model for KG has primarily focused on their structural aspects, with most efforts restricted to in-KG tasks (e.g., knowledge graph completion, KGC). This limitation has hindered progress in addressing more challenging out-of-KG tasks. In this paper, we introduce MERRY, a foundation model for general knowledge graph reasoning, and investigate its performance across two task categories: in-KG reasoning tasks (e.g., KGC) and out-of-KG tasks (e.g., KG question answering, KGQA). We not only utilize the structural information, but also the textual information in KGs. Specifically, we propose a multi-perspective Conditional Message Passing (CMP) encoding architecture to bridge the gap between textual and structural modalities, enabling their seamless integration. Additionally, we introduce a dynamic residual fusion module to selectively retain relevant textual information and a flexible edge scoring mechanism to adapt to diverse downstream tasks. Comprehensive evaluations on 28 datasets demonstrate that MERRY outperforms existing baselines in most scenarios, showcasing strong reasoning capabilities within KGs and excellent generalization to out-of-KG tasks such as KGQA.