The Rapid Growth of AI Foundation Model Usage in Science

📄 arXiv: 2511.21739v1 📥 PDF

作者: Ana Trišović, Alex Fogelson, Janakan Sivaloganathan, Neil Thompson

分类: cs.DL, cs.AI

发布日期: 2025-11-21


💡 一句话要点

大规模分析揭示AI基础模型在科学领域应用呈指数级增长趋势

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI基础模型 科学研究 大规模分析 模型应用 开源模型

📋 核心要点

  1. 现有研究缺乏对AI基础模型在科学领域实际应用情况的大规模分析,难以准确评估其影响。
  2. 该研究通过分析大量科学文献,追踪AI基础模型的使用情况,揭示其在不同学科领域的应用趋势和特点。
  3. 研究发现AI基础模型在科学领域应用快速增长,但科学家使用较小模型可能限制了其获得AI赋能科学的全部益处。

📝 摘要(中文)

本文首次对AI基础模型在科学领域的使用情况进行了大规模分析,不仅仅局限于引用或关键词。研究发现,AI基础模型的采用呈快速增长趋势,接近指数增长,其中语言学、计算机科学和工程领域的应用最为广泛。视觉模型是科学领域中使用最多的基础模型,但语言模型的份额正在增长。开源模型占据主导地位。随着AI构建者增加其模型的参数数量,科学家们也在效仿,但速度要慢得多:2013年,构建的基础模型的中位数比科学领域采用的中位数大7.7倍,到2024年,这一数字跃升至26倍。研究还提供了暗示性证据,表明科学家使用较小模型可能限制了他们获得AI赋能科学的全部益处,因为使用较大模型的论文似乎出现在更高影响力的期刊上,并获得更多的引用。

🔬 方法详解

问题定义:该论文旨在解决对AI基础模型在科学领域应用情况缺乏系统性、大规模分析的问题。现有研究多集中于引用或关键词分析,无法全面反映AI基础模型的实际使用情况及其对科学研究的影响。此外,科学家使用规模较小的模型,可能无法充分利用AI的潜力,导致研究成果的影响力受限。

核心思路:该论文的核心思路是通过大规模分析科学文献,追踪AI基础模型的使用情况,包括模型类型、规模、应用领域等,从而揭示AI基础模型在科学领域的应用趋势和特点。同时,研究分析了模型规模与论文影响力之间的关系,探讨了使用较小模型可能带来的局限性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集大量的科学文献数据,包括论文标题、摘要、关键词、正文等;2) 模型识别:利用自然语言处理技术,识别文献中使用的AI基础模型,包括模型名称、类型、规模等;3) 应用领域分类:将文献按照学科领域进行分类,例如语言学、计算机科学、工程等;4) 数据分析:对收集到的数据进行统计分析,包括模型使用频率、应用领域分布、模型规模与论文影响力之间的关系等。

关键创新:该论文的关键创新在于:1) 首次对AI基础模型在科学领域的使用情况进行了大规模分析,填补了相关研究的空白;2) 不仅仅局限于引用或关键词分析,而是深入分析了模型的实际使用情况;3) 揭示了模型规模与论文影响力之间的关系,为科学家选择合适的模型提供了参考。

关键设计:研究中,模型识别可能采用了基于规则的方法和机器学习方法相结合的方式,以提高识别的准确率。在分析模型规模与论文影响力之间的关系时,可能采用了回归分析等统计方法,并考虑了其他可能影响论文影响力的因素,例如作者声誉、期刊质量等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,AI基础模型在科学领域的应用呈快速增长趋势,尤其在语言学、计算机科学和工程领域。视觉模型是目前使用最多的基础模型,但语言模型的份额正在增长。开源模型占据主导地位。此外,研究表明,使用较大模型的论文似乎出现在更高影响力的期刊上,并获得更多的引用,暗示了模型规模对科研成果的影响。

🎯 应用场景

该研究成果可应用于科技政策制定、科研资源分配和科研人员能力提升。政府和科研机构可以根据AI基础模型在不同领域的应用情况,制定相应的政策,引导科研方向。科研人员可以参考研究结果,选择合适的AI基础模型,提高研究效率和成果质量。此外,该研究还可以促进AI基础模型在科学领域的更广泛应用。

📄 摘要(原文)

We present the first large-scale analysis of AI foundation model usage in science - not just citations or keywords. We find that adoption has grown rapidly, at nearly-exponential rates, with the highest uptake in Linguistics, Computer Science, and Engineering. Vision models are the most used foundation models in science, although language models' share is growing. Open-weight models dominate. As AI builders increase the parameter counts of their models, scientists have followed suit but at a much slower rate: in 2013, the median foundation model built was 7.7x larger than the median one adopted in science, by 2024 this had jumped to 26x. We also present suggestive evidence that scientists' use of these smaller models may be limiting them from getting the full benefits of AI-enabled science, as papers that use larger models appear in higher-impact journals and accrue more citations.