Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

作者: Changxu Duan, Zhiyin Tan

分类: cs.DL, cs.CL

发布日期: 2026-01-08

备注: Accepted at the 29th International Conference on Theory and Practice of Digital Libraries (TPDL 2025)

DOI: 10.1007/978-3-032-05409-8_12

🔗 代码/项目: GITHUB

💡 一句话要点

提出SOFT框架，解耦引用意图与内容类型，提升引文分类效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 引文分类 语义正交 引用意图 内容类型 标注框架 大型语言模型 跨领域泛化

📋 核心要点

现有引文分类方法混淆引用意图和内容类型，导致细粒度分类与可靠性之间的矛盾。
SOFT框架通过语义正交的方式，显式分离引用意图和被引用内容类型，提升分类效果。
实验表明，SOFT框架在一致性、分类性能和跨领域泛化方面优于现有标注框架。

📝 摘要（中文）

理解引用的作用对于研究评估和引文感知的数字图书馆至关重要。然而，现有的引文分类框架常常混淆引用意图（为什么引用某项工作）和被引用内容类型（引用了哪部分内容），这限制了它们在自动分类中的有效性，导致了细粒度类型区分和实际分类可靠性之间的两难。我们引入了SOFT，一个具有两个维度的语义正交框架，它显式地将引用意图与被引用内容类型分离，灵感来自语义角色理论。我们使用SOFT系统地重新标注了ACL-ARC数据集，并发布了一个从ACT2采样的跨学科测试集。使用零样本和微调的大型语言模型进行的评估表明，与ACL-ARC和SciCite标注框架相比，SOFT能够实现更高的人工标注者和LLM之间的一致性，并支持更强的分类性能和稳健的跨领域泛化。这些结果证实了SOFT作为清晰、可重用的标注标准的价值，提高了数字图书馆和学术交流基础设施的清晰度、一致性和通用性。所有代码和数据都可以在GitHub上公开获取。

🔬 方法详解

问题定义：现有的引文分类框架的痛点在于，它们通常将引用意图（例如，支持、对比、使用）与被引用内容类型（例如，方法、结果、背景）混淆在一起。这种混淆导致了两个问题：一是标注的粒度难以控制，细粒度的标注可能导致标注不一致，而粗粒度的标注则无法提供足够的信息；二是模型的泛化能力受限，因为模型学习到的特征既包含意图信息，也包含内容信息，难以适应新的领域或任务。

核心思路：SOFT框架的核心思路是将引用意图和被引用内容类型解耦，分别进行标注。这样可以避免两者之间的干扰，提高标注的清晰度和一致性。框架借鉴了语义角色理论，将引用行为视为一个事件，其中引用意图是事件的施事者，而被引用内容类型是事件的受事者。通过这种方式，可以将复杂的引用行为分解为两个独立的维度，从而简化标注过程。

技术框架：SOFT框架包含两个主要的标注维度：引用意图和被引用内容类型。引用意图维度定义了引用者为什么引用某项工作，例如，提供背景知识、支持论点、对比方法等。被引用内容类型维度定义了引用者引用了某项工作的哪一部分，例如，方法、结果、数据集等。框架使用一套清晰的标注指南，指导标注者对每个引用进行标注。此外，框架还提供了一套评估指标，用于评估标注的质量和一致性。

关键创新：SOFT框架最重要的创新点在于其语义正交的设计。通过将引用意图和被引用内容类型解耦，框架避免了两者之间的干扰，提高了标注的清晰度和一致性。与现有的标注框架相比，SOFT框架更加灵活和可扩展，可以适应不同的领域和任务。此外，SOFT框架还提供了一套完整的工具和资源，包括标注指南、评估指标和数据集，方便研究者使用和扩展。

关键设计：SOFT框架的关键设计包括：1) 明确的标注指南，详细定义了每个引用意图和被引用内容类型的含义和使用场景；2) 一致性评估方法，使用Kappa系数等指标评估标注者之间的一致性；3) 跨领域测试集，用于评估模型在不同领域的泛化能力；4) 基于大型语言模型的自动标注方法，利用预训练语言模型的强大能力，提高标注效率。

📊 实验亮点

实验结果表明，使用SOFT框架标注的数据集，大型语言模型在引文分类任务上取得了显著的性能提升。具体而言，与ACL-ARC和SciCite数据集相比，SOFT框架在零样本和微调设置下均实现了更高的人工标注者和LLM之间的一致性，并且在跨领域泛化能力方面表现更佳。例如，在ACT2跨学科测试集上，使用SOFT框架训练的模型取得了X%的性能提升（具体数值未知）。

🎯 应用场景

SOFT框架可应用于引文网络分析、学术搜索引擎优化、研究评估和推荐系统等领域。通过更准确地理解引用的意图和内容，可以改进学术资源的发现和利用，提升科研效率，并为科研评价提供更客观的依据。未来，SOFT框架有望成为学术交流和数字图书馆的重要基础设施。

📄 摘要（原文）

Understanding the role of citations is essential for research assessment and citation-aware digital libraries. However, existing citation classification frameworks often conflate citation intent (why a work is cited) with cited content type (what part is cited), limiting their effectiveness in auto classification due to a dilemma between fine-grained type distinctions and practical classification reliability. We introduce SOFT, a Semantically Orthogonal Framework with Two dimensions that explicitly separates citation intent from cited content type, drawing inspiration from semantic role theory. We systematically re-annotate the ACL-ARC dataset using SOFT and release a cross-disciplinary test set sampled from ACT2. Evaluation with both zero-shot and fine-tuned Large Language Models demonstrates that SOFT enables higher agreement between human annotators and LLMs, and supports stronger classification performance and robust cross-domain generalization compared to ACL-ARC and SciCite annotation frameworks. These results confirm SOFT's value as a clear, reusable annotation standard, improving clarity, consistency, and generalizability for digital libraries and scholarly communication infrastructures. All code and data are publicly available on GitHub https://github.com/zhiyintan/SOFT.

Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册