HGNet: Scalable Foundation Model for Automated Knowledge Graph Generation from Scientific Literature

📄 arXiv: 2603.23136v1 📥 PDF

作者: Devvrat Joshi, Islem Rekik

分类: cs.CL, cs.LG

发布日期: 2026-03-24

🔗 代码/项目: GITHUB


💡 一句话要点

提出HGNet,用于从科学文献中自动生成可扩展的知识图谱。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱生成 科学文献挖掘 实体识别 关系抽取 层次关系建模 零样本学习 注意力机制

📋 核心要点

  1. 现有知识图谱构建方法在处理长实体、跨领域泛化和层次结构建模方面存在不足,导致知识图谱的深度和一致性受限。
  2. 论文提出两阶段框架,包含Z-NERD和HGNet,分别用于实体识别和关系抽取,并引入正交语义分解、多尺度注意力机制和层次感知消息传递。
  3. 实验结果表明,该框架在多个科学文献数据集上取得了显著的性能提升,尤其是在零样本设置下,实体识别和关系抽取均有大幅度提高。

📝 摘要(中文)

自动知识图谱(KG)构建对于浏览快速增长的科学文献至关重要。然而,现有方法难以识别长的多词实体,常常无法跨领域泛化,并且通常忽略科学知识的层次结构。虽然通用大型语言模型(LLM)具有适应性,但计算成本高昂,并且在专门任务上的准确性不一致。因此,当前的KG是浅层且不一致的,限制了它们在探索和综合方面的效用。我们提出了一个两阶段框架,用于可扩展的、零样本的科学KG构建。第一阶段,Z-NERD,引入了(i)正交语义分解(OSD),通过隔离文本中的语义“转折”来促进领域无关的实体识别,以及(ii)多尺度TCQK注意力机制,通过感知n-gram的注意力头来捕获连贯的多词实体。第二阶段,HGNet,执行关系抽取,并进行层次感知的消息传递,显式地建模父、子和同级关系。为了强制全局一致性,我们引入了两个互补的目标:可微层次损失,以阻止循环和捷径边,以及连续抽象场(CAF)损失,它将抽象级别嵌入到欧几里得空间中可学习的轴上。这是第一个将层次抽象形式化为标准欧几里得嵌入中连续属性的方法,为双曲方法提供了一个更简单的替代方案。我们发布了SPHERE,这是一个用于层次关系抽取的跨领域基准。我们的框架在SciERC、SciER和SPHERE上建立了新的state-of-the-art,在out-of-distribution测试中将NER提高了8.08%,RE提高了5.99%。在零样本设置中,NER的增益达到10.76%,RE的增益达到26.2%。

🔬 方法详解

问题定义:现有方法在从科学文献中构建知识图谱时,面临以下问题:难以识别长的多词实体,领域泛化能力差,以及忽略了科学知识的层次结构。这些问题导致构建的知识图谱深度不够,一致性较差,难以有效支持科学研究。

核心思路:论文的核心思路是通过一个两阶段框架,分别解决实体识别和关系抽取的问题。Z-NERD阶段专注于实体识别,通过正交语义分解和多尺度注意力机制来提升识别长实体和跨领域实体的能力。HGNet阶段专注于关系抽取,通过层次感知的消息传递和全局一致性约束来建模科学知识的层次结构。

技术框架:整体框架包含两个主要阶段:Z-NERD和HGNet。Z-NERD阶段首先使用正交语义分解(OSD)将文本分解为语义单元,然后使用多尺度TCQK注意力机制来识别实体。HGNet阶段使用层次感知的消息传递机制来抽取实体之间的关系,并使用可微层次损失和连续抽象场(CAF)损失来保证知识图谱的全局一致性。

关键创新:论文的关键创新点包括:1) 正交语义分解(OSD),用于提升领域无关的实体识别能力;2) 多尺度TCQK注意力机制,用于捕获连贯的多词实体;3) 层次感知的消息传递机制,用于建模科学知识的层次结构;4) 连续抽象场(CAF)损失,将层次抽象形式化为标准欧几里得嵌入中的连续属性。

关键设计:Z-NERD阶段使用正交语义分解将文本分解为语义单元,具体实现方式未知。多尺度TCQK注意力机制通过n-gram感知的注意力头来捕获多词实体。HGNet阶段使用层次感知的消息传递机制,具体的消息传递方式未知。可微层次损失用于惩罚知识图谱中的循环和捷径边。连续抽象场(CAF)损失将抽象级别嵌入到欧几里得空间中可学习的轴上,具体实现方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在SciERC、SciER和SPHERE数据集上取得了state-of-the-art的结果。在out-of-distribution测试中,实体识别(NER)的性能提升了8.08%,关系抽取(RE)的性能提升了5.99%。在零样本设置下,NER的性能提升了10.76%,RE的性能提升了26.2%。SPHERE数据集是一个新的多领域层次关系抽取基准。

🎯 应用场景

该研究成果可应用于多个领域,包括:科学文献挖掘、知识发现、智能问答系统、科研辅助工具等。通过自动构建高质量的科学知识图谱,可以帮助研究人员更高效地浏览和理解科学文献,促进科学研究的进展。未来,该方法可以扩展到其他领域的知识图谱构建,例如医学、金融等。

📄 摘要(原文)

Automated knowledge graph (KG) construction is essential for navigating the rapidly expanding body of scientific literature. However, existing approaches struggle to recognize long multi-word entities, often fail to generalize across domains, and typically overlook the hierarchical nature of scientific knowledge. While general-purpose large language models (LLMs) offer adaptability, they are computationally expensive and yield inconsistent accuracy on specialized tasks. As a result, current KGs are shallow and inconsistent, limiting their utility for exploration and synthesis. We propose a two-stage framework for scalable, zero-shot scientific KG construction. The first stage, Z-NERD, introduces (i) Orthogonal Semantic Decomposition (OSD), which promotes domain-agnostic entity recognition by isolating semantic "turns" in text, and (ii) a Multi-Scale TCQK attention mechanism that captures coherent multi-word entities through n-gram-aware attention heads. The second stage, HGNet, performs relation extraction with hierarchy-aware message passing, explicitly modeling parent, child, and peer relations. To enforce global consistency, we introduce two complementary objectives: a Differentiable Hierarchy Loss to discourage cycles and shortcut edges, and a Continuum Abstraction Field (CAF) Loss that embeds abstraction levels along a learnable axis in Euclidean space. This is the first approach to formalize hierarchical abstraction as a continuous property within standard Euclidean embeddings, offering a simpler alternative to hyperbolic methods. We release SPHERE (https://github.com/basiralab/SPHERE), a multi-domain benchmark for hierarchical relation extraction. Our framework establishes a new state of the art on SciERC, SciER, and SPHERE, improving NER by 8.08% and RE by 5.99% on out-of-distribution tests. In zero-shot settings, gains reach 10.76% for NER and 26.2% for RE.