Can LLMs Predict Citation Intent? An Experimental Analysis of In-context Learning and Fine-tuning on Open LLMs
作者: Paris Koloveas, Serafeim Chatzopoulos, Thanasis Vergoulis, Christos Tryfonopoulos
分类: cs.CL, cs.DL
发布日期: 2025-02-20 (更新: 2025-07-25)
备注: Accepted for publication on TPDL 2025
DOI: 10.1007/978-3-032-05409-8_13
💡 一句话要点
利用通用LLM,通过上下文学习和微调预测引文意图,无需领域特定预训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 引文意图预测 大语言模型 上下文学习 微调 自然语言处理
📋 核心要点
- 现有引文意图预测方法依赖于领域特定的预训练模型,泛化能力受限,且训练成本高昂。
- 本研究探索利用通用LLM,通过上下文学习和微调,以更少的任务数据实现引文意图预测。
- 实验表明,微调后的通用LLM在SciCite和ACL-ARC数据集上,F1分数分别提升8%和4.3%。
📝 摘要(中文)
本研究探讨了开放大语言模型(LLM)通过上下文学习和微调来预测引文意图的能力。与依赖领域特定预训练模型(如SciBERT)的传统方法不同,我们证明了通用LLM可以通过最少的任务特定数据进行调整以适应此任务。我们使用零样本、单样本、少样本和多样本提示,评估了五个主要开放LLM系列的十二种模型变体。我们的实验研究通过广泛的上下文学习实验确定了性能最佳的模型和提示参数。然后,我们通过微调该模型,展示了任务特定适应的显著影响,与指令调整的基线相比,在SciCite数据集上实现了8%的相对F1分数提升,在ACL-ARC数据集上实现了4.3%的相对F1分数提升。这些发现为模型选择和提示工程提供了宝贵的见解。此外,我们将端到端评估框架和模型公开发布,以供将来使用。
🔬 方法详解
问题定义:论文旨在解决引文意图预测问题,即判断一篇论文引用另一篇论文的具体原因或目的。现有方法主要依赖于领域特定的预训练模型,例如SciBERT,这些模型虽然在科学文献上表现良好,但泛化能力有限,且需要大量的领域数据进行预训练,成本较高。
核心思路:论文的核心思路是利用通用的大语言模型(LLM),通过上下文学习(in-context learning)和微调(fine-tuning)的方式,使其能够预测引文意图。这种方法避免了对领域特定预训练模型的依赖,降低了训练成本,并可能提高模型的泛化能力。
技术框架:整体框架包括两个主要阶段:1) 上下文学习阶段:探索不同的提示策略(零样本、单样本、少样本、多样本)和模型变体,以确定最佳的上下文学习配置。2) 微调阶段:基于上下文学习阶段的结果,选择性能最佳的模型,并使用任务特定的数据进行微调,以进一步提高模型的性能。
关键创新:论文的关键创新在于证明了通用LLM在引文意图预测任务上的有效性,并探索了上下文学习和微调在提升模型性能方面的作用。与传统方法相比,该方法不需要领域特定的预训练,降低了训练成本,并可能提高模型的泛化能力。
关键设计:论文的关键设计包括:1) 选择了五个主流的开放LLM系列,并评估了它们的多个变体。2) 探索了不同的提示策略,包括零样本、单样本、少样本和多样本提示。3) 使用SciCite和ACL-ARC两个数据集进行评估,并采用F1分数作为评估指标。4) 对性能最佳的模型进行了微调,并比较了微调前后的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过上下文学习和微调,通用LLM在引文意图预测任务上取得了显著的性能提升。具体而言,微调后的模型在SciCite数据集上实现了8%的相对F1分数提升,在ACL-ARC数据集上实现了4.3%的相对F1分数提升,超过了指令调整的基线模型。
🎯 应用场景
该研究成果可应用于学术搜索引擎、论文推荐系统、科研评价等领域,帮助研究人员更高效地检索和理解文献,提升科研效率。未来可进一步探索利用LLM进行更深层次的科研知识挖掘和推理。
📄 摘要(原文)
This work investigates the ability of open Large Language Models (LLMs) to predict citation intent through in-context learning and fine-tuning. Unlike traditional approaches relying on domain-specific pre-trained models like SciBERT, we demonstrate that general-purpose LLMs can be adapted to this task with minimal task-specific data. We evaluate twelve model variations across five prominent open LLM families using zero-, one-, few-, and many-shot prompting. Our experimental study identifies the top-performing model and prompting parameters through extensive in-context learning experiments. We then demonstrate the significant impact of task-specific adaptation by fine-tuning this model, achieving a relative F1-score improvement of 8% on the SciCite dataset and 4.3% on the ACL-ARC dataset compared to the instruction-tuned baseline. These findings provide valuable insights for model selection and prompt engineering. Additionally, we make our end-to-end evaluation framework and models openly available for future use.