A Large-Scale Dataset and Citation Intent Classification in Turkish with LLMs
作者: Kemal Sami Karaca, Bahaeddin Eravcı
分类: cs.CL, cs.AI
发布日期: 2025-09-26
备注: Submitted to IEEE UBMK 2025 International Conference on Computer Science and Engineering
期刊: In Proceedings of the 10th International Conference on Computer Science and Engineering (UBMK) 1 (2025) 509-514
DOI: 10.1109/UBMK67458.2025.11207038
💡 一句话要点
提出土耳其语引文意图分类数据集和基于DSPy优化的LLM分类框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 引文意图分类 土耳其语NLP 大型语言模型 DSPy框架 提示优化 堆叠泛化 XGBoost
📋 核心要点
- 土耳其语引文意图分类任务面临数据稀缺和语言复杂性挑战,现有方法难以有效处理。
- 论文提出基于DSPy框架的提示优化方法,自动化提示工程,提升LLM在土耳其语引文意图分类上的性能。
- 实验结果表明,基于XGBoost元模型的堆叠泛化集成方法,在土耳其语引文意图分类任务上达到了91.3%的准确率。
📝 摘要(中文)
理解引文的定性意图对于全面评估学术研究至关重要,但对于像土耳其语这样的粘着语来说,这项任务具有独特的挑战。本文介绍了一种系统的方法和一个基础数据集来解决这个问题。首先,我们提出了一个新的、公开可用的土耳其语引文意图数据集,该数据集是使用专门构建的标注工具创建的。然后,我们评估了使用大型语言模型(LLM)进行标准上下文学习(ICL)的性能,结果表明,其有效性受到手动设计的提示导致的不一致结果的限制。为了解决这个核心限制,我们引入了一个基于DSPy框架构建的可编程分类管道,该管道系统地自动化了提示优化。对于最终分类,我们采用堆叠泛化集成来聚合来自多个优化模型的输出,从而确保稳定和可靠的预测。这个集成的元模型是XGBoost,达到了91.3%的最先进的准确率。最终,这项研究为土耳其语NLP社区和更广泛的学术界提供了一个基础数据集和一个强大的分类框架,为未来的定性引文研究铺平了道路。
🔬 方法详解
问题定义:论文旨在解决土耳其语学术论文中引文意图的自动分类问题。现有方法,特别是基于人工设计的提示的上下文学习(ICL),在处理土耳其语这种粘着语时,效果不稳定,且依赖于人工经验,缺乏系统性和可重复性。现有方法的痛点在于提示工程的困难和结果的不一致性。
核心思路:论文的核心思路是利用DSPy框架自动化提示优化过程,从而克服人工设计提示的局限性。通过可编程的方式,DSPy能够系统地探索和优化提示,提高LLM在土耳其语引文意图分类任务中的性能。此外,论文还采用了堆叠泛化集成方法,将多个优化后的模型的输出进行集成,进一步提高分类的稳定性和准确性。
技术框架:整体框架包含以下几个主要阶段:1) 数据集构建:构建了一个新的土耳其语引文意图数据集。2) 基于DSPy的提示优化:使用DSPy框架自动优化LLM的提示。3) 模型集成:采用堆叠泛化集成方法,将多个优化后的LLM模型的输出进行集成。4) 最终分类:使用XGBoost作为元模型进行最终的分类。
关键创新:最重要的技术创新点在于使用DSPy框架自动化提示优化过程。与现有方法相比,该方法无需人工设计提示,而是通过可编程的方式,系统地探索和优化提示,从而提高了LLM在土耳其语引文意图分类任务中的性能。此外,堆叠泛化集成方法也提高了分类的稳定性和准确性。
关键设计:论文的关键设计包括:1) 使用专门构建的标注工具创建土耳其语引文意图数据集。2) 使用DSPy框架自动优化LLM的提示,包括选择合适的LLM、定义合适的评估指标和搜索策略。3) 采用堆叠泛化集成方法,选择多个优化后的LLM模型作为基模型,并使用XGBoost作为元模型进行集成。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于DSPy框架优化的LLM模型,结合XGBoost元模型的堆叠泛化集成方法,在土耳其语引文意图分类任务上达到了91.3%的准确率,显著优于基于人工设计的提示的上下文学习方法。该结果表明,自动化提示优化和模型集成是提高LLM在复杂语言任务中性能的有效途径。
🎯 应用场景
该研究成果可应用于学术论文分析、引文网络构建、科研成果评估等领域。通过自动识别引文意图,可以更准确地评估学术论文的影响力,发现重要的研究成果,并为科研人员提供更有效的文献检索和分析工具。未来,该方法可以推广到其他语言和领域,为更广泛的学术研究提供支持。
📄 摘要(原文)
Understanding the qualitative intent of citations is essential for a comprehensive assessment of academic research, a task that poses unique challenges for agglutinative languages like Turkish. This paper introduces a systematic methodology and a foundational dataset to address this problem. We first present a new, publicly available dataset of Turkish citation intents, created with a purpose-built annotation tool. We then evaluate the performance of standard In-Context Learning (ICL) with Large Language Models (LLMs), demonstrating that its effectiveness is limited by inconsistent results caused by manually designed prompts. To address this core limitation, we introduce a programmable classification pipeline built on the DSPy framework, which automates prompt optimization systematically. For final classification, we employ a stacked generalization ensemble to aggregate outputs from multiple optimized models, ensuring stable and reliable predictions. This ensemble, with an XGBoost meta-model, achieves a state-of-the-art accuracy of 91.3\%. Ultimately, this study provides the Turkish NLP community and the broader academic circles with a foundational dataset and a robust classification framework paving the way for future qualitative citation studies.