GeoGalactica: A Scientific Large Language Model in Geoscience

📄 arXiv: 2401.00434v2 📥 PDF

作者: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Yuxun Miao, Bo Xue, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou

分类: cs.CL

发布日期: 2023-12-31 (更新: 2024-04-13)


💡 一句话要点

GeoGalactica:面向地球科学的300亿参数大型语言模型,通过预训练和指令微调实现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 地球科学 预训练 指令微调 自然语言处理 AI for Science 领域自适应

📋 核心要点

  1. 现有方法难以有效利用大型语言模型(LLMs)促进地球科学领域的知识发现和问题解决。
  2. 通过在大量地球科学文本上预训练Galactica模型,并使用指令微调数据集进行微调,构建了GeoGalactica模型。
  3. GeoGalactica包含300亿参数,是地球科学领域最大的语言模型,并在专业知识问答方面表现出潜力。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大成功,展现了其通用知识和解决广泛任务的能力。凭借其卓越的能力,LLMs为跨学科应用提供了可能,通过人工智能(AI for Science, AI4S)促进特定领域的科学发现。同时,在地球科学研究和实践中利用NLP技术应用广泛且复杂,涵盖从知识提取和文档分类到问答和知识发现。在这项工作中,我们迈出了利用LLM进行科学研究的初步尝试,采用了一种相当直接的方法。我们尝试通过使用大量的地球科学文本进一步预训练模型,以及使用我们自定义收集的指令调整数据集对生成的模型进行监督微调(SFT),从而将LLM专门用于地球科学。这些努力产生了一个包含300亿个参数的GeoGalactica模型。据我们所知,它是地球科学领域最大的语言模型。更具体地说,GeoGalactica来自Galactica的进一步预训练。我们使用包含650亿个token的地球科学相关文本语料库训练GeoGalactica,保留了最大的地球科学特定文本语料库。然后,我们使用包含100万对指令调整数据(包括需要专业地球科学知识才能回答的问题)来微调模型。在本技术报告中,我们将详细说明GeoGalactica的各个方面,包括数据收集、数据清理、基础模型选择、预训练、SFT和评估。我们开源了我们的数据管理工具和GeoGalactica在预训练前3/4期间的检查点。

🔬 方法详解

问题定义:论文旨在解决如何将大型语言模型(LLMs)有效地应用于地球科学领域的问题。现有方法的痛点在于通用LLMs缺乏地球科学领域的专业知识,难以处理需要领域特定知识的任务。

核心思路:论文的核心思路是通过领域自适应预训练和指令微调,使LLM具备地球科学领域的专业知识和问题解决能力。通过在大量的地球科学文本数据上进行预训练,使模型学习到地球科学领域的语言模式和知识。然后,通过指令微调,使模型能够更好地理解和执行地球科学相关的任务。

技术框架:GeoGalactica的整体框架包括以下几个主要阶段:1) 数据收集和清洗:收集大量的地球科学文本数据,并进行清洗和预处理。2) 基础模型选择:选择Galactica作为基础模型。3) 领域自适应预训练:在地球科学文本数据上对Galactica进行进一步的预训练。4) 指令微调:使用指令微调数据集对预训练模型进行微调,使其能够更好地理解和执行地球科学相关的任务。5) 评估:对GeoGalactica进行评估,验证其在地球科学领域的性能。

关键创新:该论文的关键创新在于构建了地球科学领域最大的语言模型GeoGalactica,并探索了领域自适应预训练和指令微调在地球科学领域的应用。与现有方法相比,GeoGalactica能够更好地处理需要地球科学领域专业知识的任务。

关键设计:GeoGalactica的关键设计包括:1) 使用包含650亿个token的地球科学相关文本语料库进行预训练。2) 使用包含100万对指令调整数据进行微调。3) 开源数据管理工具和预训练检查点。

📊 实验亮点

GeoGalactica模型包含300亿参数,是目前地球科学领域最大的语言模型。该模型在包含650亿token的地球科学文本语料库上进行了预训练,并使用包含100万对指令调整数据进行了微调。实验结果(具体数值未知)表明,GeoGalactica在地球科学相关任务上表现出良好的性能。

🎯 应用场景

GeoGalactica在地球科学领域具有广泛的应用前景,例如知识提取、文档分类、问答系统、知识发现等。它可以帮助研究人员更高效地分析地球科学数据,发现新的科学规律,并解决实际问题。未来,GeoGalactica可以应用于环境监测、资源勘探、灾害预警等领域,为地球科学研究和实践提供强大的支持。

📄 摘要(原文)

Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens, preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.