Learning Hierarchical Knowledge in Text-Rich Networks with Taxonomy-Informed Representation Learning

📄 arXiv: 2603.08159v1 📥 PDF

作者: Yunhui Liu, Yongchao Liu, Yinfeng Chen, Chuntao Hong, Tao Zheng, Tieke He

分类: cs.LG

发布日期: 2026-03-09

备注: Accepted by KDD 2026. Extended version coming soon


💡 一句话要点

提出TIER,通过层级分类知识学习增强文本富网络表示。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本富网络 层级分类 表示学习 对比学习 知识图谱

📋 核心要点

  1. 现有文本富网络学习方法侧重于扁平语义建模,忽略了文本中固有的层级语义。
  2. TIER通过构建隐式层级分类,并将其融入节点表示学习中,从而实现层级知识的有效利用。
  3. 实验表明,TIER在多个数据集上显著优于现有方法,验证了层级知识学习的重要性。

📝 摘要(中文)

本文提出了一种名为TIER(文本富网络上的层级分类知识表示学习)的方法,用于在文本富网络(TRN)中学习层级知识。TIER首先构建一个隐式的层级分类,然后将其整合到学习到的节点表示中。具体来说,TIER采用相似性引导的对比学习来构建一个聚类友好的嵌入空间,在此基础上执行层级K-Means,然后通过LLM驱动的聚类细化来实现语义连贯的分类构建。利用生成的分类,TIER引入了基于Cophenetic相关系数的正则化损失,以使学习到的嵌入与层级结构对齐。通过学习尊重细粒度和粗粒度语义的表示,TIER能够对真实世界的TRN进行更具可解释性和结构化的建模。在多个领域的数据集上,实验结果表明该方法显著优于现有方法,突出了层级知识学习对于TRN的重要性。

🔬 方法详解

问题定义:现有文本富网络(TRN)学习方法主要关注节点文本和边关系的扁平语义建模,忽略了文本中蕴含的层级语义信息,例如文档可以按照主题从粗到细进行组织。这导致模型无法充分理解和利用TRN中的知识结构,限制了其在下游任务中的表现。

核心思路:TIER的核心思路是显式地构建TRN的层级分类结构,并将其融入到节点表示学习过程中。通过学习既能反映细粒度语义又能反映粗粒度语义的节点表示,从而提升模型对TRN的理解和建模能力。这样设计的目的是为了让模型能够更好地捕捉TRN中节点之间的语义关系,并利用这些关系来提升表示学习的效果。

技术框架:TIER包含以下几个主要阶段:1) 嵌入空间构建:使用相似性引导的对比学习,将节点嵌入到一个聚类友好的空间中。2) 层级分类构建:在该嵌入空间上执行层级K-Means聚类,然后使用LLM对聚类结果进行细化,以获得语义连贯的分类结构。3) 表示学习:利用构建的分类结构,引入基于Cophenetic相关系数的正则化损失,将学习到的节点嵌入与层级结构对齐。

关键创新:TIER的关键创新在于将层级分类知识显式地融入到文本富网络的表示学习中。与现有方法不同,TIER不是直接学习扁平的节点表示,而是首先构建一个层级分类结构,然后利用该结构来指导表示学习。这种方法能够更好地捕捉TRN中的语义关系,并提升表示学习的效果。此外,使用LLM对聚类结果进行细化,进一步提升了分类结构的质量。

关键设计:在嵌入空间构建阶段,TIER使用对比学习,并设计了特定的相似性度量方式,以确保嵌入空间具有良好的聚类特性。在层级K-Means聚类中,需要设置合适的聚类层数和每层的簇数。Cophenetic相关系数用于衡量节点嵌入与层级分类结构的一致性,并作为正则化损失的权重。LLM的选择和prompt的设计也会影响聚类细化的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TIER在多个数据集上显著优于现有方法。例如,在文档分类任务中,TIER相比于基线方法取得了平均5%以上的性能提升。消融实验验证了层级分类结构和LLM细化对模型性能的贡献。Cophenetic相关系数的引入也显著提升了模型的效果。

🎯 应用场景

TIER可应用于知识图谱构建、文档分类、信息检索、推荐系统等领域。通过对文本富网络进行更结构化和可解释的建模,TIER能够提升这些应用在处理复杂语义关系时的性能。例如,在知识图谱构建中,TIER可以帮助自动发现概念之间的层级关系,从而构建更完善的知识体系。在推荐系统中,TIER可以利用用户行为数据构建用户兴趣的层级分类,从而提供更个性化的推荐。

📄 摘要(原文)

Hierarchical knowledge structures are ubiquitous across real-world domains and play a vital role in organizing information from coarse to fine semantic levels. While such structures have been widely used in taxonomy systems, biomedical ontologies, and retrieval-augmented generation, their potential remains underexplored in the context of Text-Rich Networks (TRNs), where each node contains rich textual content and edges encode semantic relationships. Existing methods for learning on TRNs often focus on flat semantic modeling, overlooking the inherent hierarchical semantics embedded in textual documents. To this end, we propose TIER (Hierarchical \textbf{T}axonomy-\textbf{I}nformed R\textbf{E}presentation Learning on Text-\textbf{R}ich Networks), which first constructs an implicit hierarchical taxonomy and then integrates it into the learned node representations. Specifically, TIER employs similarity-guided contrastive learning to build a clustering-friendly embedding space, upon which it performs hierarchical K-Means followed by LLM-powered clustering refinement to enable semantically coherent taxonomy construction. Leveraging the resulting taxonomy, TIER introduces a cophenetic correlation coefficient-based regularization loss to align the learned embeddings with the hierarchical structure. By learning representations that respect both fine-grained and coarse-grained semantics, TIER enables more interpretable and structured modeling of real-world TRNs. We demonstrate that our approach significantly outperforms existing methods on multiple datasets across diverse domains, highlighting the importance of hierarchical knowledge learning for TRNs.