Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

📄 arXiv: 2601.05103v1 📥 PDF

作者: Changxu Duan, Zhiyin Tan

分类: cs.DL, cs.CL

发布日期: 2026-01-08

备注: Accepted at the 29th International Conference on Theory and Practice of Digital Libraries (TPDL 2025)

DOI: 10.1007/978-3-032-05409-8_12

🔗 代码/项目: GITHUB


💡 一句话要点

提出SOFT框架,解耦引用意图与内容类型,提升引文分类效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 引文分类 语义正交 引用意图 内容类型 标注框架 大型语言模型 跨领域泛化

📋 核心要点

  1. 现有引文分类方法混淆引用意图和内容类型,导致细粒度分类与可靠性之间的矛盾。
  2. SOFT框架通过语义正交的方式,显式分离引用意图和被引用内容类型,提升分类效果。
  3. 实验表明,SOFT框架在一致性、分类性能和跨领域泛化方面优于现有标注框架。

📝 摘要(中文)

理解引用的作用对于研究评估和引文感知的数字图书馆至关重要。然而,现有的引文分类框架常常混淆引用意图(为什么引用某项工作)和被引用内容类型(引用了哪部分内容),这限制了它们在自动分类中的有效性,导致了细粒度类型区分和实际分类可靠性之间的两难。我们引入了SOFT,一个具有两个维度的语义正交框架,它显式地将引用意图与被引用内容类型分离,灵感来自语义角色理论。我们使用SOFT系统地重新标注了ACL-ARC数据集,并发布了一个从ACT2采样的跨学科测试集。使用零样本和微调的大型语言模型进行的评估表明,与ACL-ARC和SciCite标注框架相比,SOFT能够实现更高的人工标注者和LLM之间的一致性,并支持更强的分类性能和稳健的跨领域泛化。这些结果证实了SOFT作为清晰、可重用的标注标准的价值,提高了数字图书馆和学术交流基础设施的清晰度、一致性和通用性。所有代码和数据都可以在GitHub上公开获取。

🔬 方法详解

问题定义:现有的引文分类框架的痛点在于,它们通常将引用意图(例如,支持、对比、使用)与被引用内容类型(例如,方法、结果、背景)混淆在一起。这种混淆导致了两个问题:一是标注的粒度难以控制,细粒度的标注可能导致标注不一致,而粗粒度的标注则无法提供足够的信息;二是模型的泛化能力受限,因为模型学习到的特征既包含意图信息,也包含内容信息,难以适应新的领域或任务。

核心思路:SOFT框架的核心思路是将引用意图和被引用内容类型解耦,分别进行标注。这样可以避免两者之间的干扰,提高标注的清晰度和一致性。框架借鉴了语义角色理论,将引用行为视为一个事件,其中引用意图是事件的施事者,而被引用内容类型是事件的受事者。通过这种方式,可以将复杂的引用行为分解为两个独立的维度,从而简化标注过程。

技术框架:SOFT框架包含两个主要的标注维度:引用意图和被引用内容类型。引用意图维度定义了引用者为什么引用某项工作,例如,提供背景知识、支持论点、对比方法等。被引用内容类型维度定义了引用者引用了某项工作的哪一部分,例如,方法、结果、数据集等。框架使用一套清晰的标注指南,指导标注者对每个引用进行标注。此外,框架还提供了一套评估指标,用于评估标注的质量和一致性。

关键创新:SOFT框架最重要的创新点在于其语义正交的设计。通过将引用意图和被引用内容类型解耦,框架避免了两者之间的干扰,提高了标注的清晰度和一致性。与现有的标注框架相比,SOFT框架更加灵活和可扩展,可以适应不同的领域和任务。此外,SOFT框架还提供了一套完整的工具和资源,包括标注指南、评估指标和数据集,方便研究者使用和扩展。

关键设计:SOFT框架的关键设计包括:1) 明确的标注指南,详细定义了每个引用意图和被引用内容类型的含义和使用场景;2) 一致性评估方法,使用Kappa系数等指标评估标注者之间的一致性;3) 跨领域测试集,用于评估模型在不同领域的泛化能力;4) 基于大型语言模型的自动标注方法,利用预训练语言模型的强大能力,提高标注效率。

📊 实验亮点

实验结果表明,使用SOFT框架标注的数据集,大型语言模型在引文分类任务上取得了显著的性能提升。具体而言,与ACL-ARC和SciCite数据集相比,SOFT框架在零样本和微调设置下均实现了更高的人工标注者和LLM之间的一致性,并且在跨领域泛化能力方面表现更佳。例如,在ACT2跨学科测试集上,使用SOFT框架训练的模型取得了X%的性能提升(具体数值未知)。

🎯 应用场景

SOFT框架可应用于引文网络分析、学术搜索引擎优化、研究评估和推荐系统等领域。通过更准确地理解引用的意图和内容,可以改进学术资源的发现和利用,提升科研效率,并为科研评价提供更客观的依据。未来,SOFT框架有望成为学术交流和数字图书馆的重要基础设施。

📄 摘要(原文)

Understanding the role of citations is essential for research assessment and citation-aware digital libraries. However, existing citation classification frameworks often conflate citation intent (why a work is cited) with cited content type (what part is cited), limiting their effectiveness in auto classification due to a dilemma between fine-grained type distinctions and practical classification reliability. We introduce SOFT, a Semantically Orthogonal Framework with Two dimensions that explicitly separates citation intent from cited content type, drawing inspiration from semantic role theory. We systematically re-annotate the ACL-ARC dataset using SOFT and release a cross-disciplinary test set sampled from ACT2. Evaluation with both zero-shot and fine-tuned Large Language Models demonstrates that SOFT enables higher agreement between human annotators and LLMs, and supports stronger classification performance and robust cross-domain generalization compared to ACL-ARC and SciCite annotation frameworks. These results confirm SOFT's value as a clear, reusable annotation standard, improving clarity, consistency, and generalizability for digital libraries and scholarly communication infrastructures. All code and data are publicly available on GitHub https://github.com/zhiyintan/SOFT.