NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
作者: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch
分类: cs.CL
发布日期: 2025-03-11 (更新: 2025-03-15)
备注: 11 pages, 3 figures, 6 tables
💡 一句话要点
NSF-SciFy:构建大规模科研声明数据集,用于科学发现和评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科研声明提取 自然语言处理 大型语言模型 科学知识图谱 数据集构建
📋 核心要点
- 现有数据集主要依赖已发表文献,忽略了研究早期阶段的科研声明,限制了对科研过程的全面理解。
- 利用NSF资助项目摘要,通过零样本提示大型语言模型,联合提取科学声明和调查提案,构建大规模数据集。
- 在技术摘要生成、科研声明提取和调查提案提取任务上,微调模型均显著优于基线模型,验证了数据集的有效性。
📝 摘要(中文)
本文介绍了NSF-SciFy,一个大规模的科研声明提取数据集,它来源于美国国家科学基金会(NSF)的奖励数据库,包含超过40万份跨越五十年的资助项目摘要。与以往依赖已发表文献的数据集不同,本文利用资助项目摘要,这些摘要捕捉了研究生命周期中更早阶段的声明。此外,本文还引入了一项新任务,区分提案中已存在的科学声明和有抱负的研究意图。通过使用前沿大型语言模型进行零样本提示,从材料科学领域的1.6万份资助项目摘要中联合提取了11.4万个科学声明和14.5万个调查提案,创建了一个名为NSF-SciFy-MatSci的聚焦子集。本文使用该数据集评估了三个关键任务:(1)技术性摘要到非技术性摘要的生成,模型实现了较高的BERTScore(0.85+ F1);(2)科学声明提取,微调模型优于基础模型100%的相对提升;(3)调查提案提取,微调后提升超过90%。本文引入了基于LLM的新型评估指标,用于对声明/提案提取质量进行稳健评估。作为迄今为止最大的科学声明数据集,NSF-SciFy估计包含NSF资助的所有STEM学科的280万个声明,为声明验证和元科学研究提供了新的机会。本文公开发布所有数据集、训练模型和评估代码,以促进进一步研究。
🔬 方法详解
问题定义:论文旨在解决科学研究领域中科研声明的自动提取和识别问题。现有方法主要依赖于已发表的文献,忽略了研究早期阶段的科研声明,并且缺乏区分已验证声明和研究意图的能力。这限制了对科研过程的全面理解和对科研成果的早期评估。
核心思路:论文的核心思路是利用美国国家科学基金会(NSF)的资助项目摘要,这些摘要包含了研究项目在早期阶段的科研声明和研究意图。通过对这些摘要进行分析和提取,可以构建一个大规模的科研声明数据集,并用于训练模型以自动识别和提取科研声明。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从NSF的奖励数据库中收集资助项目摘要。2) 数据标注:使用大型语言模型进行零样本提示,从摘要中提取科学声明和调查提案。3) 数据集构建:构建NSF-SciFy数据集,包括完整的摘要和提取的声明/提案。4) 模型训练:使用NSF-SciFy数据集训练模型,用于技术摘要生成、科研声明提取和调查提案提取等任务。5) 模型评估:使用LLM-based的新型评估指标评估模型的性能。
关键创新:论文的关键创新点在于:1) 利用资助项目摘要作为数据来源,捕捉研究早期阶段的科研声明。2) 引入区分已验证声明和研究意图的任务。3) 构建大规模的科研声明数据集NSF-SciFy。4) 提出基于LLM的新型评估指标,用于更准确地评估声明/提案提取的质量。
关键设计:论文的关键设计包括:1) 使用零样本提示的大型语言模型进行数据标注,降低了人工标注的成本。2) 构建了NSF-SciFy-MatSci子集,专注于材料科学领域,便于进行更深入的研究。3) 在模型训练过程中,使用了微调技术,显著提高了模型的性能。4) 评估指标方面,采用了BERTScore等传统指标,并结合LLM-based的评估方法,更全面地评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在技术摘要生成任务中,模型实现了较高的BERTScore(0.85+ F1)。在科学声明提取和调查提案提取任务中,微调模型分别优于基础模型100%和90%以上的相对提升。这些结果验证了NSF-SciFy数据集的有效性,并表明该数据集可以用于训练高性能的科研声明提取模型。
🎯 应用场景
该研究成果可应用于科研成果的早期评估、科研趋势分析、科研项目管理和科学知识图谱构建等领域。通过自动提取和识别科研声明,可以帮助科研人员快速了解相关领域的研究进展,辅助决策者进行科研项目资助,并促进科学知识的传播和应用。
📄 摘要(原文)
We present NSF-SciFy, a large-scale dataset for scientific claim extraction derived from the National Science Foundation (NSF) awards database, comprising over 400K grant abstracts spanning five decades. While previous datasets relied on published literature, we leverage grant abstracts which offer a unique advantage: they capture claims at an earlier stage in the research lifecycle before publication takes effect. We also introduce a new task to distinguish between existing scientific claims and aspirational research intentions in proposals. Using zero-shot prompting with frontier large language models, we jointly extract 114K scientific claims and 145K investigation proposals from 16K grant abstracts in the materials science domain to create a focused subset called NSF-SciFy-MatSci. We use this dataset to evaluate 3 three key tasks: (1) technical to non-technical abstract generation, where models achieve high BERTScore (0.85+ F1); (2) scientific claim extraction, where fine-tuned models outperform base models by 100% relative improvement; and (3) investigation proposal extraction, showing 90%+ improvement with fine-tuning. We introduce novel LLM-based evaluation metrics for robust assessment of claim/proposal extraction quality. As the largest scientific claim dataset to date -- with an estimated 2.8 million claims across all STEM disciplines funded by the NSF -- NSF-SciFy enables new opportunities for claim verification and meta-scientific research. We publicly release all datasets, trained models, and evaluation code to facilitate further research.