Measuring the State of Open Science in Transportation Using Large Language Models
作者: Junyi Ji, Ruth Lu, Linda Belkessa, Liming Wang, Silvia Varotto, Yongqi Dong, Nicolas Saunier, Mostafa Ameli, Gregory S. Macfarlane, Bahman Madadi, Cathy Wu
分类: cs.DL, cs.AI, cs.CY, cs.ET
发布日期: 2026-01-20
💡 一句话要点
利用大型语言模型评估交通运输研究中的开放科学实践现状
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放科学 大型语言模型 交通运输研究 数据可用性 代码可用性 自动特征提取 文献计量分析 研究评估
📋 核心要点
- 现有交通运输研究中开放科学实践的评估依赖人工或文献计量,存在效率低、信息不全面的问题。
- 本文提出利用大型语言模型自动提取论文中的数据和代码可用性信息,实现可扩展的开放科学评估。
- 实验分析了Transportation Research Part系列期刊论文,揭示了开放科学实践的现状,并指出了激励机制的不足。
📝 摘要(中文)
开放科学实践在许多领域加强了科学的完整性并加速了研究进展,但其在交通运输研究中的应用情况仍未得到充分研究。开放科学的关键特征,如数据和代码的可获得性,由于该领域固有的复杂性而难以提取。以往的研究要么因人工分析的劳动密集型特性而局限于小规模研究,要么依赖于牺牲上下文丰富性的大规模文献计量方法。本文介绍了一种自动且可扩展的特征提取流程,用于衡量交通运输研究中数据和代码的可获得性。我们使用大型语言模型(LLM)来完成这项任务,并通过手动管理的数据集和评分者间一致性分析来验证其性能。我们将此流程应用于检查2019年至2024年间发表在Transportation Research Part系列期刊上的10724篇研究文章。我们的分析发现,只有5%的定量论文共享了代码存储库,4%的定量论文共享了数据存储库,约3%的论文同时共享了两者,且趋势因期刊、主题和地理区域而异。我们发现,提供数据和代码的论文与未提供数据和代码的论文在引用次数或审稿时长方面没有显著差异,这表明开放科学实践与传统学术指标之间存在不一致。因此,鼓励这些实践可能需要期刊和资助机构进行结构性干预,以弥补作者缺乏直接激励的不足。本研究开发的流程可以很容易地扩展到其他期刊,代表着朝着自动测量和监控交通运输研究中的开放科学实践迈出的关键一步。
🔬 方法详解
问题定义:现有方法在评估交通运输研究领域开放科学实践时,面临人工标注成本高昂和小规模研究的局限性,以及大规模文献计量方法牺牲上下文信息的问题。因此,需要一种自动、可扩展且能保留上下文信息的评估方法。
核心思路:利用大型语言模型(LLMs)强大的自然语言理解能力,自动从论文文本中提取数据和代码可用性的相关信息。LLMs能够理解论文的上下文,从而更准确地判断数据和代码是否公开,以及如何获取。
技术框架:该方法构建了一个自动特征提取流程,主要包括以下几个阶段:1) 数据收集:收集Transportation Research Part系列期刊的论文文本。2) LLM应用:使用LLM对论文文本进行分析,提取数据和代码可用性的相关特征。3) 验证:通过与人工标注的数据集对比,以及进行评分者间一致性分析,验证LLM的性能。4) 分析:对提取的特征进行统计分析,评估开放科学实践的现状。
关键创新:该方法的核心创新在于将大型语言模型应用于开放科学实践的自动评估。与传统方法相比,该方法具有更高的效率、可扩展性和准确性,能够处理大规模的论文数据,并保留论文的上下文信息。
关键设计:论文中没有详细描述LLM的具体选择和微调细节,以及特征提取的具体prompt设计。这些是影响LLM性能的关键因素,但文中没有明确说明。对LLM输出结果的验证方式,包括人工标注数据集的构建和评分者间一致性分析,是保证评估结果可靠性的重要设计。
📊 实验亮点
研究分析了10724篇Transportation Research Part系列期刊论文,发现仅有5%的定量论文共享代码,4%共享数据,3%同时共享两者。研究还发现,提供数据和代码的论文与未提供的论文在引用次数和审稿时长上没有显著差异,表明开放科学实践与传统学术指标存在脱节。
🎯 应用场景
该研究成果可应用于评估和监测各个研究领域的开放科学实践,帮助期刊、资助机构和研究人员了解开放科学的实施情况,并制定相应的政策和措施来促进开放科学的发展。该方法还可用于识别和推广优秀的开放科学实践案例,提高研究的可重复性和透明度。
📄 摘要(原文)
Open science initiatives have strengthened scientific integrity and accelerated research progress across many fields, but the state of their practice within transportation research remains under-investigated. Key features of open science, defined here as data and code availability, are difficult to extract due to the inherent complexity of the field. Previous work has either been limited to small-scale studies due to the labor-intensive nature of manual analysis or has relied on large-scale bibliometric approaches that sacrifice contextual richness. This paper introduces an automatic and scalable feature-extraction pipeline to measure data and code availability in transportation research. We employ Large Language Models (LLMs) for this task and validate their performance against a manually curated dataset and through an inter-rater agreement analysis. We applied this pipeline to examine 10,724 research articles published in the Transportation Research Part series of journals between 2019 and 2024. Our analysis found that only 5% of quantitative papers shared a code repository, 4% of quantitative papers shared a data repository, and about 3% of papers shared both, with trends differing across journals, topics, and geographic regions. We found no significant difference in citation counts or review duration between papers that provided data and code and those that did not, suggesting a misalignment between open science efforts and traditional academic metrics. Consequently, encouraging these practices will likely require structural interventions from journals and funding agencies to supplement the lack of direct author incentives. The pipeline developed in this study can be readily scaled to other journals, representing a critical step toward the automated measurement and monitoring of open science practices in transportation research.