AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy
作者: Rui Pan, Tuan Dung Nguyen, Hardik Arora, Alberto Accomazzi, Tirthankar Ghosal, Yuan-Sen Ting
分类: astro-ph.IM, cs.CL
发布日期: 2024-09-29
备注: 10 pages, 1 figure, 1 table, accepted to AI4S: The 5th Workshop on Artificial Intelligence and Machine Learning for Scientific Applications at the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC24). Models will be released at https://huggingface.co/AstroMLab. AstroMLab homepage: https://astromlab.org/
💡 一句话要点
AstroLLaMA-2-70B:构建并评测面向天文学的专业化大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 天文学 持续预训练 领域特定模型 基准测试
📋 核心要点
- 天文学领域缺乏专门的基准数据集,难以客观评估领域特定的大语言模型(LLM)的性能。
- 通过在LLaMA-2上进行持续预训练,并利用高质量的天文数据(如arXiv摘要),提升模型在天文学任务上的表现。
- 实验表明,在70B模型上进行持续预训练可以显著提高性能,并发布了AstroLLaMA-3-8B和AstroLLaMA-2-70B新模型。
📝 摘要(中文)
本文研究旨在量化评估天文学领域的专业化大语言模型(LLM)。由于先前缺乏天文学专用基准,阻碍了对此类模型的客观评估。本文利用近期构建的高质量天文学多项选择题(MCQ),评估了专业化LLM在天文学上的表现。研究发现,基于LLaMA-2-7B的早期AstroLLaMA系列模型性能不如基模型。通过使用高质量数据(如arXiv摘要文本)进行持续预训练,可以部分缓解这种性能下降。尽管较小模型中观察到灾难性遗忘,但结果表明,在70B模型上进行持续预训练可以显著提高性能。然而,当前的监督微调数据集仍然限制了指令模型的性能。本文还发布了新的模型AstroLLaMA-3-8B和AstroLLaMA-2-70B,作为先前AstroLLaMA系列的扩展。
🔬 方法详解
问题定义:现有方法缺乏针对天文学领域的客观评估基准,导致无法有效评估和比较专门为此领域训练的大语言模型(LLM)。此外,直接在通用LLM上进行微调可能导致灾难性遗忘,降低其在通用任务上的性能。
核心思路:通过持续预训练(Continual Pretraining)的方式,利用高质量的天文领域数据(如arXiv摘要),使LLM逐步适应天文学领域的知识,同时尽量减少对原有通用知识的遗忘。针对指令模型,通过监督微调进一步提升其在特定任务上的表现。
技术框架:该研究主要包含以下几个阶段:1) 选择合适的基座模型(LLaMA-2);2) 收集和清洗高质量的天文领域数据;3) 使用收集的数据对基座模型进行持续预训练,得到AstroLLaMA模型;4) 使用天文学多项选择题数据集对AstroLLaMA模型进行评估;5) 对部分模型进行监督微调,得到指令模型。
关键创新:该研究的关键创新在于:1) 构建了用于评估天文学领域LLM的基准数据集;2) 验证了通过高质量数据进行持续预训练可以有效提升LLM在天文学领域的性能,并缓解灾难性遗忘问题;3) 发布了新的AstroLLaMA系列模型,为天文学研究提供了有力的工具。
关键设计:在持续预训练阶段,使用了来自arXiv的天文摘要作为训练数据,并可能采用了特定的数据增强和清洗策略以提高数据质量。模型训练过程中,可能使用了特定的学习率调度策略和正则化方法,以防止过拟合。评估阶段,使用了天文学多项选择题数据集,并可能采用了不同的评估指标来全面衡量模型的性能。
📊 实验亮点
研究表明,基于LLaMA-2-70B的AstroLLaMA-2-70B模型通过持续预训练,在天文学任务上取得了显著的性能提升。与基于LLaMA-2-7B的早期AstroLLaMA系列相比,新模型有效缓解了灾难性遗忘问题。此外,该研究还发布了AstroLLaMA-3-8B和AstroLLaMA-2-70B模型,为后续研究提供了基础。
🎯 应用场景
该研究成果可应用于天文知识问答、天文数据分析、天文文献检索等领域。AstroLLaMA模型可以帮助天文学家更高效地进行研究,例如快速检索相关文献、自动生成研究报告等。此外,该模型还可以用于天文科普教育,提高公众对天文学的兴趣和了解。
📄 摘要(原文)
Continual pretraining of large language models on domain-specific data has been proposed to enhance performance on downstream tasks. In astronomy, the previous absence of astronomy-focused benchmarks has hindered objective evaluation of these specialized LLM models. Leveraging a recent initiative to curate high-quality astronomical MCQs, this study aims to quantitatively assess specialized LLMs in astronomy. We find that the previously released AstroLLaMA series, based on LLaMA-2-7B, underperforms compared to the base model. We demonstrate that this performance degradation can be partially mitigated by utilizing high-quality data for continual pretraining, such as summarized text from arXiv. Despite the observed catastrophic forgetting in smaller models, our results indicate that continual pretraining on the 70B model can yield significant improvements. However, the current supervised fine-tuning dataset still constrains the performance of instruct models. In conjunction with this study, we introduce a new set of models, AstroLLaMA-3-8B and AstroLLaMA-2-70B, building upon the previous AstroLLaMA series.