Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

📄 arXiv: 2404.04167v5 📥 PDF

作者: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Wenhu Chen, Ge Zhang

分类: cs.CL, cs.AI

发布日期: 2024-04-05 (更新: 2024-09-13)


💡 一句话要点

提出CT-LLM以解决中文语言模型训练不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文语言模型 大型语言模型 预训练 自然语言处理 机器学习 对齐技术 数据处理

📋 核心要点

  1. 现有大型语言模型主要基于英文语料训练,导致中文处理能力不足,限制了中文应用的发展。
  2. CT-LLM从零开始构建,采用1200亿标记的中文文本数据,优先考虑中文数据以提升模型的中文理解能力。
  3. CT-LLM在CHC-Bench上表现优异,特别是在中文任务上,展示了其在英语处理上的能力,推动了模型训练方法的创新。

📝 摘要(中文)

本研究介绍了CT-LLM,一个以中文为中心的2B大型语言模型,标志着在大型语言模型开发中优先考虑中文的重大转变。CT-LLM从零开始构建,主要使用包含1200亿个标记的中文文本数据集,其中包括800亿中文标记、300亿英文标记和100亿代码标记。这种战略性的数据组成使得模型在理解和处理中文方面表现出色,并通过对齐技术进一步增强了这一能力。在CHC-Bench上,CT-LLM在中文任务上表现卓越,同时在SFT中展示了其在英语方面的能力。该研究挑战了以往主要在英文语料上训练大型语言模型的传统范式,推动了大型语言模型训练方法的多样化。通过开源完整的中文LLM训练过程,我们希望促进学术界和工业界的进一步探索与创新。

🔬 方法详解

问题定义:本研究旨在解决现有大型语言模型在中文处理能力不足的问题,尤其是传统方法主要依赖英文语料,导致中文应用效果不佳。

核心思路:CT-LLM的核心思路是从零开始构建一个以中文为中心的语言模型,采用大量中文文本数据进行预训练,以提升其对中文的理解和生成能力。

技术框架:CT-LLM的整体架构包括数据收集、预处理、模型训练和评估四个主要阶段。数据收集阶段使用了包含800亿中文标记的语料库,预处理阶段则确保数据质量和多样性。模型训练阶段采用了先进的对齐技术,评估阶段通过CHC-Bench进行性能测试。

关键创新:CT-LLM的最大创新在于其训练方法,首次以中文为主导进行大规模预训练,打破了以往以英文为主的训练范式,提供了新的思路和方法。

关键设计:在模型设计上,CT-LLM采用了特定的损失函数和网络结构,确保在中文任务上能够有效学习,同时在参数设置上进行了优化,以适应大规模数据的处理需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CT-LLM在CHC-Bench上取得了显著的性能提升,特别是在中文任务中表现优异,展示了其在处理中文的能力。同时,在SFT中也展现了良好的英语处理能力,进一步证明了其多语言适应性。

🎯 应用场景

CT-LLM的潜在应用场景包括中文自然语言处理、机器翻译、智能客服等领域。其优越的中文处理能力将推动中文信息处理技术的发展,提升相关应用的智能化水平,具有重要的实际价值和广泛的未来影响。

📄 摘要(原文)

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.