Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers

📄 arXiv: 2502.10263v1 📥 PDF

作者: Aivin V. Solatorio, Rafael Macalaba, James Liounis

分类: cs.CL, cs.AI, cs.CY, cs.DB, cs.LG

发布日期: 2025-02-14

备注: Project GitHub repository at https://github.com/worldbank/ai4data-use


💡 一句话要点

利用大语言模型和合成数据自动检测研究论文中的数据集引用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据集引用检测 大型语言模型 合成数据 弱监督学习 两阶段微调

📋 核心要点

  1. 手动识别学术论文中的数据集引用成本高昂且难以扩展,阻碍了数据质量监控和可发现性的提升。
  2. 该论文提出利用LLM生成合成数据,并结合两阶段微调策略,训练模型以自动检测研究论文中的数据集引用。
  3. 实验结果表明,该方法在数据集提取准确率上优于现有方法,验证了LLM合成数据在低资源场景下的有效性。

📝 摘要(中文)

追踪研究论文中数据集的引用和使用情况,对于提高数据的可发现性、质量和生产至关重要。然而,手动识别和分类大量学术文献中的数据集引用耗费资源且不具备可扩展性。本文提出了一种机器学习框架,通过利用大型语言模型(LLMs)、合成数据和两阶段微调过程,自动检测跨研究领域的数据集引用。我们采用从研究论文中进行零样本提取、使用LLM作为评估器进行质量评估,以及使用推理代理进行细化,从而生成弱监督的合成数据集。Phi-3.5-mini instruct模型首先在此数据集上进行预微调,然后在手动标注的子集上进行微调。在推理阶段,基于ModernBERT的分类器有效地过滤数据集引用,降低计算开销,同时保持高召回率。在保留的手动标注样本上进行评估,我们微调后的模型在数据集提取准确率方面优于NuExtract-v1.5和GLiNER-large-v2.1。我们的结果表明,LLM生成的合成数据可以有效地解决训练数据稀缺问题,提高在低资源环境中的泛化能力。该框架为可扩展地监控数据集使用情况提供了一条途径,增强了透明度,并支持研究人员、资助者和政策制定者识别数据差距,并加强数据可访问性,从而为明智的决策提供支持。

🔬 方法详解

问题定义:该论文旨在解决研究论文中数据集引用检测的问题。现有方法主要依赖人工标注,成本高昂且难以扩展,无法有效监控数据集的使用情况和影响。因此,需要一种自动化的方法来识别和分类数据集引用,从而提高数据可发现性、质量和生产。

核心思路:论文的核心思路是利用大型语言模型(LLMs)生成合成数据,以解决训练数据稀缺的问题。通过LLM的零样本提取、质量评估和推理代理细化,构建一个弱监督的合成数据集。然后,使用该合成数据集对小型LLM进行预微调,再在少量人工标注数据上进行微调,从而提高模型在真实数据上的泛化能力。

技术框架:整体框架包含以下几个主要阶段:1) 合成数据生成:使用LLM从研究论文中进行零样本提取,然后使用LLM-as-a-Judge进行质量评估,并使用推理代理进行细化,生成弱监督的合成数据集。2) 模型微调:首先在合成数据集上对Phi-3.5-mini instruct模型进行预微调,然后在手动标注的子集上进行微调。3) 推理:使用基于ModernBERT的分类器过滤数据集引用,降低计算开销。

关键创新:该论文的关键创新在于利用LLM生成高质量的合成数据,并将其用于预微调小型LLM。这种方法有效地解决了训练数据稀缺的问题,提高了模型在低资源环境下的泛化能力。此外,使用LLM-as-a-Judge进行质量评估和推理代理进行细化,进一步提高了合成数据的质量。

关键设计:在合成数据生成阶段,使用了LLM进行零样本提取,并设计了LLM-as-a-Judge来评估提取结果的质量。推理代理用于细化提取结果,提高其准确性。在模型微调阶段,采用了两阶段微调策略,首先在合成数据集上进行预微调,然后在人工标注数据上进行微调。在推理阶段,使用基于ModernBERT的分类器过滤数据集引用,以提高效率。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,该方法在数据集提取准确率方面优于NuExtract-v1.5和GLiNER-large-v2.1。这表明利用LLM生成的合成数据可以有效地解决训练数据稀缺问题,提高模型在低资源环境中的泛化能力。该方法为可扩展地监控数据集使用情况提供了一条途径。

🎯 应用场景

该研究成果可应用于学术搜索引擎、知识图谱构建、科研成果评估等领域。通过自动检测和分析研究论文中的数据集引用,可以帮助研究人员发现相关数据集,提高数据可发现性;帮助资助者和政策制定者了解数据集的使用情况和影响,从而更好地支持数据生产和共享;帮助数据生产者了解数据集的质量和改进方向。

📄 摘要(原文)

Tracking how data is mentioned and used in research papers provides critical insights for improving data discoverability, quality, and production. However, manually identifying and classifying dataset mentions across vast academic literature is resource-intensive and not scalable. This paper presents a machine learning framework that automates dataset mention detection across research domains by leveraging large language models (LLMs), synthetic data, and a two-stage fine-tuning process. We employ zero-shot extraction from research papers, an LLM-as-a-Judge for quality assessment, and a reasoning agent for refinement to generate a weakly supervised synthetic dataset. The Phi-3.5-mini instruct model is pre-fine-tuned on this dataset, followed by fine-tuning on a manually annotated subset. At inference, a ModernBERT-based classifier efficiently filters dataset mentions, reducing computational overhead while maintaining high recall. Evaluated on a held-out manually annotated sample, our fine-tuned model outperforms NuExtract-v1.5 and GLiNER-large-v2.1 in dataset extraction accuracy. Our results highlight how LLM-generated synthetic data can effectively address training data scarcity, improving generalization in low-resource settings. This framework offers a pathway toward scalable monitoring of dataset usage, enhancing transparency, and supporting researchers, funders, and policymakers in identifying data gaps and strengthening data accessibility for informed decision-making.