Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts

📄 arXiv: 2601.05099v1 📥 PDF

作者: Zhiyin Tan, Changxu Duan

分类: cs.DL, cs.CL, cs.IR

发布日期: 2026-01-08

备注: Accepted at the 25th ACM/IEEE Joint Conference on Digital Libraries (JCDL 2025)

DOI: 10.1109/JCDL67857.2025.00022

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种基于引文语境的多学科数据集发现框架,提升数据集检索召回率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据集发现 引文语境挖掘 大型语言模型 信息检索 科学文献分析

📋 核心要点

  1. 现有数据集搜索引擎依赖元数据和关键词,无法准确捕捉科研意图,导致数据集检索困难。
  2. 该论文提出利用论文引文语境发现数据集,基于实际研究用途进行检索,而非依赖元数据。
  3. 实验表明,该方法在召回率上显著优于现有方法,并能发现未被记录的高价值数据集。

📝 摘要(中文)

现有的数据集搜索引擎严重依赖元数据质量和关键词重叠,难以捕捉科研调查的语义意图,导致为特定研究问题寻找合适的数据集仍然具有挑战性。本文提出了一种文献驱动的框架,通过科学论文中的引文语境发现数据集,从而实现基于实际研究用途而非元数据可用性的检索。该方法结合了大规模引文语境提取、基于大型语言模型的模式引导数据集识别以及保留溯源信息的实体解析。在八个源于调查的计算机科学查询上的评估表明,该系统实现了比Google Dataset Search和DataCite Commons显著更高的召回率,标准化召回率平均从47.47%到最高81.82%。除了恢复黄金标准数据集外,该方法还发现了调查中未记录的其他数据集。跨五个顶级科学领域的专家评估表明,很大一部分额外数据集被认为是高实用性的,有些被认为是专家选择的特定主题的新颖数据集。这些发现确立了引文语境挖掘作为数据集发现的有效且可推广的范例,尤其是在数据集缺乏充分或可靠元数据的情况下。为了支持可重复性和未来的扩展,我们在GitHub上发布了我们的代码、评估数据集和结果。

🔬 方法详解

问题定义:现有数据集搜索引擎依赖于数据集的元数据和关键词匹配,这在很多情况下是不足够的。许多数据集的元数据不完整、不准确,或者缺乏对数据集在特定研究中实际用途的描述。因此,研究人员难以找到真正适合其研究问题的数据集。现有方法的痛点在于无法有效利用科学文献中蕴含的丰富信息,特别是数据集在论文中的实际使用方式。

核心思路:本文的核心思路是利用科学论文中的引文语境来发现数据集。一篇论文引用某个数据集,通常会描述该数据集的用途、特点以及在研究中的作用。通过分析这些引文语境,可以更准确地理解数据集的语义信息,从而实现更有效的数据集检索。这种方法的核心在于从“数据集被如何使用”的角度进行检索,而不是仅仅依赖于“数据集是什么”的描述。

技术框架:该框架主要包含三个阶段:1) 大规模引文语境提取:从大量的科学论文中提取包含数据集引用的文本片段。2) 基于大型语言模型的模式引导数据集识别:利用大型语言模型,结合预定义的模式,从引文语境中识别出数据集的名称、属性等信息。3) 溯源信息保留的实体解析:将识别出的数据集与已有的数据集知识库进行匹配,并保留数据集的溯源信息,例如数据集的原始来源、发布者等。

关键创新:该方法最重要的创新点在于利用引文语境进行数据集发现。与传统的基于元数据的方法相比,该方法能够更准确地捕捉数据集的语义信息,从而提高数据集检索的召回率和准确率。此外,该方法还能够发现一些元数据缺失或不完整的数据集,从而扩展了数据集发现的范围。该方法本质区别在于从数据集的实际使用场景出发,而非仅仅依赖于数据集本身的描述。

关键设计:在基于大型语言模型的模式引导数据集识别阶段,论文可能使用了特定的prompt工程技术来引导LLM提取相关信息。具体使用的LLM模型(例如GPT-3, BERT等)以及prompt的具体内容未知。在实体解析阶段,可能使用了模糊匹配、知识图谱等技术来提高匹配的准确率。具体的参数设置、损失函数、网络结构等技术细节在论文摘要中未提及,属于未知信息。

📊 实验亮点

实验结果表明,该方法在八个计算机科学查询上的标准化召回率平均从47.47%提升到最高81.82%,显著优于Google Dataset Search和DataCite Commons。此外,该方法还发现了调查中未记录的高实用性数据集,表明其具有发现新数据集的能力。专家评估也证实了该方法发现的数据集具有较高的实用性和新颖性。

🎯 应用场景

该研究成果可应用于科研领域的数据集发现,帮助研究人员更高效地找到所需的数据集,加速科研进程。此外,该方法还可以应用于数据治理领域,用于完善数据集的元数据信息,提高数据集的质量和可用性。未来,该方法可以扩展到其他类型的数据资源发现,例如代码、模型等。

📄 摘要(原文)

Identifying suitable datasets for a research question remains challenging because existing dataset search engines rely heavily on metadata quality and keyword overlap, which often fail to capture the semantic intent of scientific investigation. We introduce a literature-driven framework that discovers datasets from citation contexts in scientific papers, enabling retrieval grounded in actual research use rather than metadata availability. Our approach combines large-scale citation-context extraction, schema-guided dataset recognition with Large Language Models, and provenance-preserving entity resolution. We evaluate the system on eight survey-derived computer science queries and find that it achieves substantially higher recall than Google Dataset Search and DataCite Commons, with normalized recall ranging from an average of 47.47% to a highest value of 81.82%. Beyond recovering gold-standard datasets, the method also surfaces additional datasets not documented in the surveys. Expert assessments across five top-level Fields of Science indicate that a substantial portion of the additional datasets are considered high utility, and some are regarded as novel for the specific topics chosen by the experts. These findings establish citation-context mining as an effective and generalizable paradigm for dataset discovery, particularly in settings where datasets lack sufficient or reliable metadata. To support reproducibility and future extensions, we release our code, evaluation datasets, and results on GitHub (https://github.com/Fireblossom/citation-context-dataset-discovery).