SciDFM: A Large Language Model with Mixture-of-Experts for Science

📄 arXiv: 2409.18412v3 📥 PDF

作者: Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu

分类: cs.CL, cs.AI

发布日期: 2024-09-27 (更新: 2024-11-12)

备注: 12 pages, 1 figure, 9 tables. Technical Report, accepted by NeurIPS 2024 Workshop FM4Science

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

SciDFM:一个面向科学领域,采用混合专家模型的大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 混合专家模型 科学领域 知识推理 领域知识

📋 核心要点

  1. 现有大语言模型在科学领域应用受限,缺乏化学分子、氨基酸序列等特定领域知识。
  2. SciDFM通过混合专家模型架构,结合大规模科学语料训练,提升科学推理和领域知识理解能力。
  3. 实验表明,SciDFM在通用科学和特定领域基准测试中均表现出色,达到同等规模模型的SOTA水平。

📝 摘要(中文)

近年来,利用大型语言模型(LLM)辅助科学发现的兴趣显著增长。然而,大多数LLM只关注一般科学,缺乏特定领域的知识,如化学分子和氨基酸序列。为了弥补这些差距,我们推出了SciDFM,这是一个从头开始训练的混合专家LLM,能够进行大学水平的科学推理,并理解分子和氨基酸序列。我们收集了一个大规模的训练语料库,其中包含来自不同学科的大量科学论文和书籍,以及来自特定领域数据库的数据。我们进一步在大量的指令数据上微调预训练模型,以提高下游基准测试的性能。实验结果表明,SciDFM在SciEval和SciQ等一般科学基准测试中取得了优异的性能,并且在类似规模的模型中,在特定领域的基准测试中达到了SOTA性能。我们进一步分析了专家层,结果表明专家选择的结果随不同学科的数据而变化。为了使更广泛的研究社区受益,我们在https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0开源了SciDFM。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在应用于科学领域时,通常缺乏对特定科学领域的深入理解,例如化学分子和氨基酸序列。这限制了它们在科学发现中的应用,因为它们无法有效地处理和推理这些领域的数据。现有方法未能充分利用领域知识,导致在特定科学任务上的表现不佳。

核心思路:SciDFM的核心思路是构建一个混合专家模型(Mixture-of-Experts, MoE),该模型通过专门的专家层来处理不同领域的科学知识。通过从头开始训练,并使用大规模的科学语料库进行训练,SciDFM能够学习到更深入的科学知识,并具备更强的科学推理能力。MoE架构允许模型根据输入数据的不同,动态地选择合适的专家层进行处理,从而提高模型的效率和准确性。

技术框架:SciDFM的整体架构是一个基于Transformer的MoE模型。它包含一个共享的Transformer编码器,以及多个专家层。每个专家层都由一个前馈神经网络组成,专门用于处理特定领域的科学知识。模型还包含一个门控网络(Gating Network),用于根据输入数据的特征,动态地选择合适的专家层进行处理。训练过程包括预训练和微调两个阶段。预训练阶段使用大规模的科学语料库,让模型学习到通用的科学知识。微调阶段使用指令数据,让模型学习到如何执行特定的科学任务。

关键创新:SciDFM的关键创新在于其混合专家模型架构和大规模科学语料库的结合。MoE架构允许模型根据输入数据的不同,动态地选择合适的专家层进行处理,从而提高模型的效率和准确性。大规模科学语料库的训练使得模型能够学习到更深入的科学知识,并具备更强的科学推理能力。此外,从头开始训练的模型避免了对现有通用LLM的依赖,从而能够更好地适应科学领域的特定需求。

关键设计:SciDFM的关键设计包括以下几个方面:1) 专家层的数量和大小:根据不同科学领域的复杂程度,设置不同数量和大小的专家层。2) 门控网络的设计:使用一个简单的神经网络作为门控网络,根据输入数据的特征,动态地选择合适的专家层。3) 损失函数的设计:使用交叉熵损失函数来训练模型,并加入正则化项,以防止过拟合。4) 训练数据的选择:精心挑选大规模的科学语料库,包括科学论文、书籍和领域特定数据库的数据。

🖼️ 关键图片

fig_0

📊 实验亮点

SciDFM在通用科学基准测试(如SciEval和SciQ)中表现出色,并在特定领域基准测试中达到了SOTA性能,超越了同等规模的模型。专家层分析表明,模型能够根据不同学科的数据动态选择合适的专家,验证了MoE架构的有效性。开源的SciDFM模型为科学研究社区提供了强大的工具。

🎯 应用场景

SciDFM具有广泛的应用前景,可用于辅助科学研究、加速科学发现。例如,可以用于化学分子性质预测、蛋白质结构预测、药物发现等领域。此外,还可以用于智能教育,为学生提供个性化的科学学习体验。未来,SciDFM有望成为科学家和工程师的重要工具,推动科学技术的进步。

📄 摘要(原文)

Recently, there has been a significant upsurge of interest in leveraging large language models (LLMs) to assist scientific discovery. However, most LLMs only focus on general science, while they lack domain-specific knowledge, such as chemical molecules and amino acid sequences. To bridge these gaps, we introduce SciDFM, a mixture-of-experts LLM, which is trained from scratch and is able to conduct college-level scientific reasoning and understand molecules and amino acid sequences. We collect a large-scale training corpus containing numerous scientific papers and books from different disciplines as well as data from domain-specific databases. We further fine-tune the pre-trained model on lots of instruction data to improve performances on downstream benchmarks. From experiment results, we show that SciDFM achieves strong performance on general scientific benchmarks such as SciEval and SciQ, and it reaches a SOTA performance on domain-specific benchmarks among models of similar size. We further analyze the expert layers and show that the results of expert selection vary with data from different disciplines. To benefit the broader research community, we open-source SciDFM at https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0.