SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models
作者: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen, Yihang Cheng, Jingyi Zhao, Meng Xiao, Xiangchao Dong, Qingqing Long, Boya Pan, Han Wu, Chengzan Li, Yuanchun Zhou, Hui Xiong, Hengshu Zhu
分类: cs.LG, cs.CL, cs.DL, cs.IR
发布日期: 2025-03-12 (更新: 2025-05-29)
💡 一句话要点
SciHorizon:构建AI4Science评估框架,从科学数据到大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI4Science 大语言模型 科学数据 评估框架 基准测试 数据质量 FAIR原则
📋 核心要点
- 现有AI4Science评估缺乏对数据质量和模型能力的全面考量,阻碍了该领域的健康发展。
- SciHorizon框架从数据和模型两个维度评估AI4Science的准备度,涵盖质量、FAIRness、可解释性、合规性等多个方面。
- 通过对50多个LLM在多个科学学科上的评估,SciHorizon为AI4Science的发展提供了基准和指导。
📝 摘要(中文)
近年来,人工智能(AI)技术的快速发展,特别是大语言模型(LLM),彻底改变了科学发现的模式,将AI for Science(AI4Science)确立为一个充满活力和不断发展的领域。然而,仍然缺乏一个有效的框架来对AI4Science进行全面评估,特别是从数据质量和模型能力的整体角度来看。因此,本研究提出了SciHorizon,这是一个综合评估框架,旨在从科学数据和LLM的角度来评估AI4Science的准备情况。首先,我们引入了一个通用的框架来评估AI-ready的科学数据,包括四个关键维度:质量、FAIRness(可查找性、可访问性、互操作性和可重用性)、可解释性和合规性,这些维度又细分为15个子维度。借鉴2018年至2023年发表在同行评审期刊上的数据资源论文,我们提出了地球科学、生命科学和材料科学的AI-ready数据集推荐列表,为该领域做出了新颖和原创的贡献。同时,为了评估LLM在多个科学学科中的能力,我们基于五个核心指标(知识、理解、推理、多模态和价值观)建立了16个评估维度,涵盖数学、物理、化学、生命科学以及地球和空间科学。使用开发的基准数据集,我们对50多个具有代表性的开源和闭源LLM进行了全面评估。所有结果均可公开访问,网址为www.scihorizon.cn/en。
🔬 方法详解
问题定义:当前AI4Science领域缺乏一个统一的评估框架,无法有效衡量科学数据是否适合AI模型训练,以及LLM在科学任务中的表现。现有方法往往侧重于单一维度或特定任务,难以提供全面、客观的评估结果,阻碍了AI4Science的进一步发展。
核心思路:SciHorizon的核心思路是构建一个综合性的评估框架,从科学数据和LLM两个维度出发,全面评估AI4Science的准备情况。该框架将数据质量、FAIR原则、可解释性和合规性纳入考虑,同时评估LLM在知识、理解、推理、多模态和价值观等方面的能力。
技术框架:SciHorizon框架包含两个主要部分:科学数据评估和LLM评估。科学数据评估部分定义了四个关键维度(质量、FAIRness、可解释性和合规性)和15个子维度,用于评估科学数据集的AI-readiness。LLM评估部分基于五个核心指标(知识、理解、推理、多模态和价值观)建立了16个评估维度,涵盖多个科学学科。
关键创新:SciHorizon的关键创新在于其综合性和全面性。它不仅考虑了数据质量,还关注了数据的FAIR原则、可解释性和合规性,以及LLM在多个科学学科中的能力。此外,SciHorizon还提供了一个公开可访问的基准数据集和评估结果,为AI4Science的研究人员提供了一个有价值的资源。
关键设计:在数据评估方面,FAIRness的评估细化为可查找性、可访问性、互操作性和可重用性四个子维度。在LLM评估方面,针对不同科学学科设计了特定的评估任务和指标。例如,在数学领域,评估LLM的符号计算和方程求解能力;在生命科学领域,评估LLM的蛋白质结构预测和药物发现能力。
🖼️ 关键图片
📊 实验亮点
SciHorizon对50多个LLM进行了全面评估,揭示了不同模型在不同科学学科中的优势和劣势。评估结果表明,一些LLM在特定科学领域表现出色,但在其他领域则表现不佳。这些结果为研究人员选择合适的LLM以及改进模型性能提供了有价值的参考。
🎯 应用场景
SciHorizon框架可用于评估和选择适合AI模型训练的科学数据集,指导LLM在科学领域的应用,并促进AI4Science的发展。该框架可应用于地球科学、生命科学、材料科学等多个领域,帮助研究人员更好地利用AI技术解决科学问题,加速科学发现。
📄 摘要(原文)
In recent years, the rapid advancement of Artificial Intelligence (AI) technologies, particularly Large Language Models (LLMs), has revolutionized the paradigm of scientific discovery, establishing AI-for-Science (AI4Science) as a dynamic and evolving field. However, there is still a lack of an effective framework for the overall assessment of AI4Science, particularly from a holistic perspective on data quality and model capability. Therefore, in this study, we propose SciHorizon, a comprehensive assessment framework designed to benchmark the readiness of AI4Science from both scientific data and LLM perspectives. First, we introduce a generalizable framework for assessing AI-ready scientific data, encompassing four key dimensions: Quality, FAIRness, Explainability, and Compliance-which are subdivided into 15 sub-dimensions. Drawing on data resource papers published between 2018 and 2023 in peer-reviewed journals, we present recommendation lists of AI-ready datasets for Earth, Life, and Materials Sciences, making a novel and original contribution to the field. Concurrently, to assess the capabilities of LLMs across multiple scientific disciplines, we establish 16 assessment dimensions based on five core indicators Knowledge, Understanding, Reasoning, Multimodality, and Values spanning Mathematics, Physics, Chemistry, Life Sciences, and Earth and Space Sciences. Using the developed benchmark datasets, we have conducted a comprehensive evaluation of over 50 representative open-source and closed source LLMs. All the results are publicly available and can be accessed online at www.scihorizon.cn/en.