Mapping the Increasing Use of LLMs in Scientific Papers

📄 arXiv: 2404.01268v1 📥 PDF

作者: Weixin Liang, Yaohui Zhang, Zhengxuan Wu, Haley Lepp, Wenlong Ji, Xuandong Zhao, Hancheng Cao, Sheng Liu, Siyu He, Zhi Huang, Diyi Yang, Christopher Potts, Christopher D Manning, James Y. Zou

分类: cs.CL, cs.AI, cs.DL, cs.LG, cs.SI

发布日期: 2024-04-01


💡 一句话要点

通过系统分析揭示LLM在科学论文中的使用趋势

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学出版 学术写作 数据分析 统计模型 研究评估 计算机科学

📋 核心要点

  1. 核心问题:当前缺乏对LLM在学术写作中使用程度的精确测量,无法评估其对科学实践的影响。
  2. 方法要点:通过对950,965篇论文进行系统分析,采用人口统计学框架来测量LLM修改内容的普遍性。
  3. 实验或效果:发现LLM使用呈现稳步上升趋势,计算机科学领域的使用率最高,且与作者的预印本发布频率、研究领域拥挤程度及论文长度相关。

📝 摘要(中文)

科学出版为科学奠定基础,通过传播研究成果、促进合作、鼓励可重复性,确保科学知识的可获取性和可验证性。近期,关于大型语言模型(LLMs)如ChatGPT在学术写作中使用情况的猜测增多,但缺乏精确的衡量。为填补这一空白,本文对2020年1月至2024年2月间在arXiv、bioRxiv和Nature期刊上发表的950,965篇论文进行了系统的大规模分析,采用人口统计学框架测量LLM修改内容的普遍性。结果显示,LLM使用呈稳步上升趋势,计算机科学领域的增长最快,达到17.5%。而数学论文和Nature期刊的LLM修改最少,最高为6.3%。此外,LLM修改程度较高的论文通常由频繁发布预印本的第一作者撰写,且研究领域较为拥挤,论文长度较短。

🔬 方法详解

问题定义:本文旨在解决对LLM在科学论文中使用程度缺乏精确测量的问题。现有方法未能系统评估LLM对学术写作的影响,导致对其使用情况的认识模糊。

核心思路:通过对大量科学论文进行系统分析,利用人口统计学框架来量化LLM修改内容的比例,以提供更为准确的使用情况评估。

技术框架:研究采用了大规模数据分析的方法,首先收集了950,965篇论文的数据,然后通过统计模型分析LLM修改的内容,最终得出使用趋势和相关性。

关键创新:本研究的创新在于首次对LLM在科学论文中的使用进行系统的、规模化的分析,提供了基于数据的实证结果,填补了现有研究的空白。

关键设计:在数据分析中,采用了人口统计学框架,重点关注论文的作者特征、研究领域的拥挤程度以及论文的长度等因素,以探讨这些变量与LLM使用之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLM的使用在科学论文中呈现稳步上升趋势,计算机科学领域的使用率最高,达到17.5%。此外,LLM修改程度与作者的预印本发布频率、研究领域的拥挤程度及论文长度存在显著相关性。

🎯 应用场景

该研究的潜在应用领域包括科学出版、学术写作和研究评估等。通过量化LLM的使用情况,能够为学术界提供更清晰的写作工具使用趋势,促进科学交流的透明性和可重复性,未来可能影响学术规范的制定。

📄 摘要(原文)

Scientific publishing lays the foundation of science by disseminating research findings, fostering collaboration, encouraging reproducibility, and ensuring that scientific knowledge is accessible, verifiable, and built upon over time. Recently, there has been immense speculation about how many people are using large language models (LLMs) like ChatGPT in their academic writing, and to what extent this tool might have an effect on global scientific practices. However, we lack a precise measure of the proportion of academic writing substantially modified or produced by LLMs. To address this gap, we conduct the first systematic, large-scale analysis across 950,965 papers published between January 2020 and February 2024 on the arXiv, bioRxiv, and Nature portfolio journals, using a population-level statistical framework to measure the prevalence of LLM-modified content over time. Our statistical estimation operates on the corpus level and is more robust than inference on individual instances. Our findings reveal a steady increase in LLM usage, with the largest and fastest growth observed in Computer Science papers (up to 17.5%). In comparison, Mathematics papers and the Nature portfolio showed the least LLM modification (up to 6.3%). Moreover, at an aggregate level, our analysis reveals that higher levels of LLM-modification are associated with papers whose first authors post preprints more frequently, papers in more crowded research areas, and papers of shorter lengths. Our findings suggests that LLMs are being broadly used in scientific writings.