GEB-1.3B: Open Lightweight Large Language Model
作者: Jie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu
分类: cs.CL
发布日期: 2024-06-14
备注: GEB-1.3B technical report
💡 一句话要点
提出轻量级开源大语言模型GEB-1.3B,优化CPU推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 轻量级大语言模型 CPU推理 开源模型 指令微调 ROPE Group-Query-Attention FlashAttention-2
📋 核心要点
- 现有大语言模型计算资源需求高,训练和推理都需要大量算力,难以在CPU上高效运行。
- GEB-1.3B通过ROPE、Group-Query-Attention和FlashAttention-2等技术加速训练,并使用指令数据微调以提升对齐效果。
- GEB-1.3B在通用基准测试中超越同类模型,且FP32版本在CPU上实现了较快的推理速度。
📝 摘要(中文)
本文介绍了GEB-1.3B,一个在中文和英文语料上训练的轻量级大语言模型,训练数据量达5500亿tokens。为了加速训练并保持模型性能,采用了ROPE、Group-Query-Attention和FlashAttention-2等新型训练技术。此外,使用1000万条指令数据对模型进行微调,以增强对齐效果。GEB-1.3B在MMLU、C-Eval和CMMLU等通用基准测试中表现出色,优于MindLLM-1.3B和TinyLlama-1.1B等同类模型。值得注意的是,GEB-1.3B的FP32版本在CPU上实现了令人满意的推理速度,并且正在通过先进的量化技术进一步提高速度。GEB-1.3B的开源发布是对轻量级LLM发展的重要贡献,有望促进该领域的进一步研究和创新。
🔬 方法详解
问题定义:现有的大语言模型通常需要大量的计算资源,这使得它们难以在资源受限的环境中部署,尤其是在CPU上进行高效推理。现有方法的痛点在于模型体积大、计算复杂度高,导致推理延迟增加。
核心思路:GEB-1.3B的核心思路是构建一个轻量级的大语言模型,通过优化训练方法和模型结构,在保证模型性能的同时,降低计算资源的需求,从而实现CPU上的高效推理。这样设计的目的是为了让更多用户能够在普通硬件上使用大语言模型。
技术框架:GEB-1.3B的整体框架遵循Transformer架构,主要包括以下几个阶段:首先,使用大规模中文和英文语料进行预训练;然后,采用ROPE、Group-Query-Attention和FlashAttention-2等技术加速训练过程;最后,使用指令数据对模型进行微调,以提升模型的指令遵循能力。
关键创新:GEB-1.3B的关键创新在于其轻量化的设计和高效的训练方法。ROPE(Rotary Position Embedding)是一种旋转位置编码,可以更好地捕捉序列中的位置信息。Group-Query-Attention通过分组查询来减少计算量,FlashAttention-2则通过优化内存访问来加速注意力计算。这些技术的结合使得GEB-1.3B能够在保证性能的同时,显著降低计算资源的需求。
关键设计:GEB-1.3B的关键设计包括:模型大小为1.3B参数,这使其相对较小,易于部署;使用5500亿tokens进行训练,保证了模型的性能;采用ROPE、Group-Query-Attention和FlashAttention-2等技术来优化训练过程;使用1000万条指令数据进行微调,提升模型的指令遵循能力。具体的参数设置和网络结构细节未在摘要中详细说明。
🖼️ 关键图片
📊 实验亮点
GEB-1.3B在MMLU、C-Eval和CMMLU等通用基准测试中表现出色,超越了MindLLM-1.3B和TinyLlama-1.1B等同类模型。尤其值得关注的是,GEB-1.3B的FP32版本在CPU上实现了可观的推理速度,并通过量化技术有望进一步提升性能。这些结果表明GEB-1.3B在轻量级LLM领域具有显著优势。
🎯 应用场景
GEB-1.3B作为轻量级大语言模型,适用于资源受限的边缘设备和CPU环境,可应用于智能助手、文本生成、机器翻译等领域。其开源特性将促进相关研究,加速轻量级LLM的普及,降低AI应用门槛,使更多开发者和用户能够利用大语言模型的能力。
📄 摘要(原文)
Recently developed large language models (LLMs) such as ChatGPT, Claude, and Llama have demonstrated impressive abilities, and even surpass human-level performance in several tasks. Despite their success, the resource-intensive demands of these models, requiring significant computational power for both training and inference, limit their deployment to high-performance servers. Additionally, the extensive calculation requirements of the models often lead to increased latency in response times. With the increasing need for LLMs to operate efficiently on CPUs, research about lightweight models that are optimized for CPU inference has emerged. In this work, we introduce GEB-1.3B, a lightweight LLM trained on 550 billion tokens in both Chinese and English languages. We employ novel training techniques, including ROPE, Group-Query-Attention, and FlashAttention-2, to accelerate training while maintaining model performance. Additionally, we fine-tune the model using 10 million samples of instruction data to enhance alignment. GEB-1.3B exhibits outstanding performance on general benchmarks such as MMLU, C-Eval, and CMMLU, outperforming comparative models such as MindLLM-1.3B and TinyLLaMA-1.1B. Notably, the FP32 version of GEB-1.3B achieves commendable inference times on CPUs, with ongoing efforts to further enhance speed through advanced quantization techniques. The release of GEB-1.3B as an open-source model marks a significant contribution to the development of lightweight LLMs, promising to foster further research and innovation in the field.