MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

📄 arXiv: 2405.19327v4 📥 PDF

作者: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-05-29 (更新: 2024-07-10)

备注: https://map-neo.github.io/


💡 一句话要点

MAP-Neo:开源高性能透明双语大语言模型系列

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 开源模型 双语模型 自然语言处理 模型训练

📋 核心要点

  1. 现有LLM虽然性能强大,但训练细节不透明,阻碍了学术研究和深入理解模型特性。
  2. MAP-Neo旨在提供一个完全开源、高性能的双语LLM,并公开所有训练细节,促进透明研究。
  3. MAP-Neo在7B参数规模下,性能可与现有先进LLM媲美,并开源了预训练数据、代码和检查点。

📝 摘要(中文)

近年来,大型语言模型(LLMs)取得了显著进展,在各种任务中实现了前所未有的性能。然而,由于商业利益,最具竞争力的模型(如GPT、Gemini和Claude)被封闭在专有接口之后,没有公开训练细节。最近,许多机构开源了一些强大的LLM,如LLaMA-3,其性能可与现有的闭源LLM相媲美。然而,只提供了模型的权重,而大多数细节(例如,中间检查点、预训练语料库和训练代码等)未公开。为了提高LLM的透明度,研究界已经形成开源真正开放的LLM(例如,Pythia、Amber、OLMo),其中提供了更多细节(例如,预训练语料库和训练代码)。这些模型极大地促进了对这些大型模型的科学研究,包括它们的优势、劣势、偏见和风险。然而,我们观察到,现有的真正开放的LLM在推理、知识和编码任务方面仍然不如具有相似模型大小的现有最先进的LLM。为此,我们开源了MAP-Neo,这是一个高性能且透明的双语语言模型,具有70亿参数,从头开始在4.5T高质量tokens上进行训练。我们的MAP-Neo是第一个完全开源的双语LLM,与现有的最先进的LLM相比,具有相当的性能。此外,我们公开了所有细节以重现我们的MAP-Neo,其中提供了清理后的预训练语料库、数据清理管道、检查点和经过良好优化的训练/评估框架。最后,我们希望我们的MAP-Neo能够增强和加强开放研究社区,并激发更多的创新和创造力,以促进LLM的进一步改进。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)虽然在各种任务中表现出色,但由于商业利益,许多先进模型(如GPT、Gemini、Claude)的训练细节并未公开。即使是开源的LLM,也常常缺乏完整的训练过程信息,例如预训练语料库、中间检查点和训练代码。这限制了研究人员对LLM的深入理解和改进,阻碍了对模型优势、劣势、偏见和风险的全面分析。

核心思路:MAP-Neo的核心思路是构建一个完全透明、可复现的双语LLM。通过开源所有训练细节,包括预训练语料库、数据清理流程、中间检查点和训练/评估框架,促进LLM研究的透明度和可重复性。同时,MAP-Neo致力于在保持模型性能的同时,提供尽可能多的信息,从而推动LLM领域的创新。

技术框架:MAP-Neo的整体框架包括以下几个主要部分:1) 数据收集与清洗:构建高质量的双语预训练语料库,并采用数据清洗管道去除噪声和冗余信息。2) 模型训练:从头开始训练一个70亿参数的Transformer模型,使用优化后的训练框架提高训练效率。3) 模型评估:在各种基准测试上评估模型性能,并与现有LLM进行比较。4) 开源发布:公开所有训练细节,包括预训练语料库、数据清洗管道、中间检查点和训练/评估框架。

关键创新:MAP-Neo的关键创新在于其完全透明的开源模式。与以往只开源模型权重的LLM不同,MAP-Neo公开了所有训练细节,使得研究人员可以完全复现模型的训练过程,并深入分析模型的行为。此外,MAP-Neo是第一个完全开源的、具有竞争力的双语LLM,为双语自然语言处理研究提供了新的资源。

关键设计:MAP-Neo的关键设计包括:1) 高质量的双语预训练语料库,包含4.5T tokens。2) 精心设计的数据清洗管道,用于去除噪声和冗余信息。3) 优化的训练框架,提高训练效率。4) 详细的文档和示例代码,方便研究人员复现和使用MAP-Neo。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAP-Neo在7B参数规模下,实现了与现有先进LLM相媲美的性能。论文开源了所有训练细节,包括4.5T tokens的高质量双语预训练语料库、数据清洗管道、中间检查点和优化的训练/评估框架,为LLM研究提供了宝贵的资源。

🎯 应用场景

MAP-Neo的潜在应用领域包括:双语自然语言处理、机器翻译、跨语言信息检索、多语言对话系统等。其开源特性促进了学术研究和产业应用,有助于开发更可靠、更公平、更高效的LLM。未来,MAP-Neo可以作为基础模型,通过微调和迁移学习,应用于各种特定领域的任务。

📄 摘要(原文)

Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.