Reconnecting Fragmented Citation Networks with Semantic Augmentation

📄 arXiv: 2605.12263v1 📥 PDF

作者: Vu Thi Huong, Annika Buchholz, Imene Khebouri, Thorsten Koch, Tim Kunt, Wolfgang Peters-Kottig, Tomasz Stompor, Janina Zittel

分类: cs.DL, cs.AI

发布日期: 2026-05-12

备注: 11 pages, 4 figures, 3 tables


💡 一句话要点

提出基于语义增强的混合框架,用于补全碎片化的引文网络。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 引文网络 语义增强 大型语言模型 文本相似度 知识图谱 文献分析 Leiden算法

📋 核心要点

  1. 现有引文网络因缺失引用而碎片化,难以准确反映科学文献间的关联。
  2. 该论文提出融合引文拓扑和LLM语义相似度的混合框架,补全缺失的引文关系。
  3. 实验表明,该方法能有效减少引文网络的碎片化,同时保持学科结构的合理性。

📝 摘要(中文)

引文图是建模科学结构的基础工具,但由于缺少科学相关的文章引用,常常出现碎片化。为了解决这个问题,我们提出了一个计算高效的混合框架,该框架集成了引文拓扑结构和基于大型语言模型(LLM)的文本相似度。我们使用Web of Science中数学、运筹学与管理科学领域的662,369篇出版物,通过添加来自小型、断开连接组件的语义边,并根据文本相似度对现有引用进行加权,来增强原始图。语义增强在保持学科同质性的同时,显著减少了碎片化。与仅使用嵌入的聚类相比,使用Leiden算法在增强图上进行聚类检测,在提供多尺度组织的同时,保留了结构可解释性。该方法可以有效地扩展到大型数据集,并为加强基于引用的指标提供了一种实用的策略,而不会破坏学科边界。

🔬 方法详解

问题定义:引文网络是分析科学文献关系的重要工具,但由于作者引用习惯、数据库覆盖范围等原因,引文网络常常出现碎片化,导致无法全面反映文献之间的关联。现有方法主要依赖引文拓扑结构或文本内容,前者容易受到数据缺失的影响,后者则可能忽略引文关系的重要性。因此,如何有效地补全引文网络,同时保持学科结构的合理性,是一个重要的挑战。

核心思路:该论文的核心思路是将引文拓扑结构和基于大型语言模型的文本相似度相结合,构建一个混合框架。通过引文拓扑结构,可以保留已知的引用关系,避免过度依赖文本相似度带来的噪声。而通过文本相似度,可以发现那些由于各种原因而缺失的引用关系,从而补全引文网络。

技术框架:该框架主要包含以下几个阶段:1) 数据准备:从Web of Science中获取数学、运筹学与管理科学领域的论文数据,构建原始引文网络。2) 语义增强:利用大型语言模型计算论文之间的文本相似度,并根据相似度为原始引文网络添加语义边。具体来说,对于那些属于小型、断开连接组件的论文,如果它们之间的文本相似度较高,则添加一条语义边。3) 引文加权:根据论文之间的文本相似度,对现有的引文关系进行加权。相似度越高,权重越大。4) 聚类分析:使用Leiden算法在增强后的引文网络上进行聚类分析,以发现学科内部的结构。

关键创新:该论文的关键创新在于提出了一个混合框架,将引文拓扑结构和基于大型语言模型的文本相似度相结合。这种方法既考虑了已知的引用关系,又利用了文本内容来发现缺失的引用关系,从而有效地补全了引文网络。此外,该方法还能够保持学科结构的合理性,避免过度依赖文本相似度带来的噪声。

关键设计:在语义增强阶段,论文选择只为小型、断开连接组件的论文添加语义边,以避免对整个引文网络造成过大的扰动。在引文加权阶段,论文使用文本相似度作为权重,以反映引文关系的强度。在聚类分析阶段,论文选择使用Leiden算法,因为它具有良好的可扩展性和聚类效果。

📊 实验亮点

实验结果表明,该方法能够显著减少引文网络的碎片化,同时保持学科结构的合理性。与仅使用嵌入的聚类相比,使用Leiden算法在增强图上进行聚类检测,在提供多尺度组织的同时,保留了结构可解释性。该方法可以有效地扩展到大型数据集,并为加强基于引用的指标提供了一种实用的策略,而不会破坏学科边界。

🎯 应用场景

该研究成果可应用于科学文献分析、学术评价、知识图谱构建等领域。通过补全引文网络,可以更准确地评估科研成果的影响力,发现新兴研究方向,并为科研人员提供更全面的知识导航。此外,该方法还可以用于分析专利文献、法律文献等其他类型的文本数据。

📄 摘要(原文)

Citation graphs are fundamental tools for modeling scientific structure, but are often fragmented due to missing citations of scientifically connected articles. To address this issue, we propose a computationally efficient hybrid framework integrating citation topology with large language model (LLM)-based text similarity. Using 662,369 Web of Science publications in Mathematics and Operations Research & Management Science, we augment the original graph by adding semantic edges from small, disconnected components and weighting existing citations according to textual similarity. Semantic augmentation substantially reduces fragmentation while preserving disciplinary homogeneity. Compared to embedding-only clustering, cluster detection on augmented graphs using the Leiden algorithm retains structural interpretability while offering multi-scale organization. The method scales efficiently to large datasets and offers a practical strategy for strengthening citation-based indicators without collapsing disciplinary boundaries.