A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

📄 arXiv: 2508.21148v2 📥 PDF

作者: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Pengfei Jiang, Cheng Tang, Ziyan Huang, Jiyao Liu, Jiaqi Wei, Yuejin Yang, Xiang Zhang, Guangshuai Wang, Yue Yang, Huihui Xu, Ziyang Chen, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Dingkang Yang, Jinjie Wei, Jiaqi Wang, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Hongze Zhu, Yu Liu, Fudi Wang, Yiqing Shen, Yuanfeng Ji, Yanzhou Su, Tong Xie, Hongming Shan, Chun-Mei Feng, Zhi Hou, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Benyou Wang, Yuewen Cao, Minjie Shen, Jie Xu, Haodong Duan, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Zhongying Deng, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Wenqi Shao, Yihao Liu, Siqi Luo, Yi Xin, Xiaohong Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Siqi Sun, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Yirong Chen, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

分类: cs.CL, cs.AI

发布日期: 2025-08-28 (更新: 2025-10-18)


💡 一句话要点

综述科学大语言模型:从数据基础到智能体前沿

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学大语言模型 数据驱动 知识表示 多模态学习 科学发现

📋 核心要点

  1. 现有科学研究中,知识的表示、整合和应用面临数据复杂性挑战,阻碍了科学大语言模型(Sci-LLM)的有效发展。
  2. 该研究以数据为中心,将Sci-LLM的发展视为模型与数据基质的共同演化,构建了科学数据分类法和知识层次模型。
  3. 通过对大量数据集和模型的分析,揭示了Sci-LLM的独特需求,并探讨了半自动化标注和专家验证等新兴解决方案。

📝 摘要(中文)

科学大语言模型(Sci-LLM)正在改变知识在科学研究中的表示、整合和应用方式,但其进展受到科学数据复杂性的影响。本综述提出了一个全面的、以数据为中心的综合,将Sci-LLM的发展重新定义为模型与其底层数据基质之间的共同演化。我们构建了一个统一的科学数据分类法和一个科学知识的层次模型,强调了多模态、跨尺度和领域特定的挑战,这些挑战将科学语料库与通用自然语言处理数据集区分开来。我们系统地回顾了最近的Sci-LLM,从通用基础模型到跨不同科学学科的专用模型,并对超过270个预/后训练数据集进行了广泛的分析,展示了Sci-LLM为何提出独特的需求——异构的、多尺度的、充满不确定性的语料库,需要保持领域不变性并支持跨模态推理的表示。在评估方面,我们检查了超过190个基准数据集,并追踪了从静态考试到以过程和发现为导向的评估以及高级评估协议的转变。这些以数据为中心的分析突出了科学数据开发中持续存在的问题,并讨论了涉及半自动化注释管道和专家验证的新兴解决方案。最后,我们概述了一种向闭环系统的范式转变,其中基于Sci-LLM的自主智能体积极地进行实验、验证并为不断发展的知识库做出贡献。总的来说,这项工作为构建可信的、不断发展的人工智能(AI)系统提供了一个路线图,这些系统可以作为加速科学发现的真正伙伴。

🔬 方法详解

问题定义:科学大语言模型(Sci-LLM)在科学研究中具有重要作用,但其发展面临着科学数据固有的复杂性挑战。现有方法难以有效处理科学数据的多模态、跨尺度和领域特异性,导致模型在知识表示、整合和应用方面存在局限性。此外,科学数据中普遍存在的不确定性也给模型的训练和评估带来了困难。

核心思路:本综述的核心思路是以数据为中心,将Sci-LLM的发展视为模型与底层数据基质的共同演化。通过对科学数据的全面分析和分类,揭示Sci-LLM的独特需求,并探讨如何构建能够有效处理科学数据的模型。强调了数据质量和数据表示的重要性,以及如何利用半自动化标注和专家验证等方法来提高数据质量。

技术框架:该综述构建了一个统一的科学数据分类法和一个科学知识的层次模型。首先,对科学数据进行分类,包括文本、图像、图数据等多种模态。然后,构建科学知识的层次模型,将知识分为事实、概念、关系等不同层次。在此基础上,对现有的Sci-LLM进行系统回顾,并分析其在不同科学领域的应用。同时,对大量的预训练和后训练数据集进行分析,揭示Sci-LLM对数据的独特需求。最后,对现有的评估基准进行分析,并探讨如何设计更有效的评估方法。

关键创新:该综述的关键创新在于提出了一个以数据为中心的Sci-LLM发展框架。与以往的研究不同,该综述强调了数据在Sci-LLM发展中的核心作用,并提出了针对科学数据的独特挑战的解决方案。此外,该综述还构建了一个统一的科学数据分类法和一个科学知识的层次模型,为Sci-LLM的研究提供了理论基础。

关键设计:该综述对超过270个预/后训练数据集和190个基准数据集进行了分析,涵盖了多个科学领域。在数据分析方面,重点关注数据的模态、尺度、领域特异性和不确定性。在模型分析方面,重点关注模型的架构、训练方法和评估指标。此外,该综述还探讨了半自动化标注和专家验证等数据处理技术,以及如何设计更有效的评估协议。

📊 实验亮点

该综述分析了超过270个预/后训练数据集和190个基准数据集,涵盖了多个科学领域。研究结果表明,现有的Sci-LLM在处理科学数据方面仍存在许多挑战,例如数据异构性、多尺度性和不确定性。此外,该综述还发现,现有的评估基准难以全面评估Sci-LLM的性能,需要设计更有效的评估方法。

🎯 应用场景

该研究成果可应用于多个科学领域,例如材料科学、生物医学和化学等。通过构建更强大的Sci-LLM,可以加速科学发现过程,提高研究效率。此外,该研究还可以促进跨学科合作,帮助科学家更好地理解和解决复杂问题。未来,基于Sci-LLM的自主智能体有望在科学研究中发挥更重要的作用。

📄 摘要(原文)

Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.