Xmodel-1.5: An 1B-scale Multilingual LLM

📄 arXiv: 2411.10083v3 📥 PDF

作者: Wang Qun, Liu Yang, Lin Qingquan, Jiang Ling

分类: cs.CL

发布日期: 2024-11-15 (更新: 2024-12-04)

🔗 代码/项目: GITHUB


💡 一句话要点

Xmodel-1.5:一个10亿参数规模的多语言大语言模型,性能均衡且可扩展。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 大型语言模型 Unigram分词器 低资源语言 泰语 预训练 自然语言处理

📋 核心要点

  1. 现有大模型通常采用BPE分词器,效率和准确性有待提升,多语言支持也存在挑战。
  2. Xmodel-1.5采用定制的unigram分词器,并在2万亿token上预训练,优化多语言性能。
  3. 实验表明,Xmodel-1.5在多种语言上表现出色,并在泰语上取得SOTA结果,优于PolyLM-1.7B。

📝 摘要(中文)

本文介绍了Xmodel-1.5,一个拥有10亿参数的多语言大型语言模型,它在2万亿个token上进行了预训练,旨在实现性能和可扩展性的平衡。与大多数使用BPE分词器的大型模型不同,Xmodel-1.5采用了一种定制的unigram分词器,拥有65,280个token,从而优化了效率和准确性。该模型在包括泰语、阿拉伯语、法语、中文和英语在内的多种语言上都取得了具有竞争力的结果,在各自的评估数据集上优于阿里巴巴的PolyLM-1.7B。Xmodel-1.5在mMMLU和PIQA等基准测试中表现出色,并在泰语方面取得了最先进的结果。为了支持低资源语言研究,我们发布了Xdata_Thai,这是一个泰语特定的评估数据集,具有独特的语言挑战,如性别化的助词和习语。虽然该模型表现出强大的性能,但在处理特定文化细微差别方面仍有改进空间。我们希望这项工作能够为多语言人工智能研究的进步做出贡献。模型和代码已在GitHub上公开发布:https://github.com/XiaoduoAILab/XmodelLM-1.5

🔬 方法详解

问题定义:现有的大型语言模型在多语言处理方面面临挑战,尤其是在低资源语言上。常用的BPE分词器可能无法有效地处理不同语言的特性,导致模型性能下降。此外,模型的可扩展性和效率也是需要考虑的关键问题。

核心思路:Xmodel-1.5的核心思路是构建一个参数规模适中(10亿参数),但经过大规模数据预训练(2万亿token)的多语言模型。通过定制的unigram分词器,优化模型对不同语言的token表示,从而提升模型在多种语言上的性能。

技术框架:Xmodel-1.5的整体框架遵循标准的大型语言模型预训练流程。主要包括数据收集与清洗、分词器训练、模型预训练和评估。模型架构基于Transformer,具体配置(如层数、注意力头数等)未知。关键在于使用了定制的unigram分词器,并针对多语言数据进行了优化。

关键创新:Xmodel-1.5的关键创新在于其定制的unigram分词器。与常见的BPE分词器相比,unigram分词器能够更好地处理不同语言的特性,尤其是在低资源语言上。通过优化token表示,模型能够更有效地学习不同语言的语法和语义信息。

关键设计:Xmodel-1.5使用了包含65,280个token的unigram分词器。具体的分词器训练方法未知,但可以推测使用了大规模的多语言语料库。模型的损失函数和优化器等技术细节未知。此外,为了评估模型在泰语上的性能,作者还发布了一个泰语特定的评估数据集Xdata_Thai。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Xmodel-1.5在多种语言上取得了具有竞争力的结果,并在泰语上取得了最先进的结果。在mMMLU和PIQA等基准测试中表现出色,优于阿里巴巴的PolyLM-1.7B。此外,作者还发布了泰语特定的评估数据集Xdata_Thai,为低资源语言研究做出了贡献。

🎯 应用场景

Xmodel-1.5可应用于多语言机器翻译、跨语言信息检索、多语言文本生成等领域。尤其是在低资源语言的支持方面,该模型具有重要的应用价值。未来,可以进一步探索其在跨文化交流、教育和内容创作等方面的应用。

📄 摘要(原文)

We introduce Xmodel-1.5, a 1-billion-parameter multilingual large language model pretrained on 2 trillion tokens, designed for balanced performance and scalability. Unlike most large models that use the BPE tokenizer, Xmodel-1.5 employs a custom unigram tokenizer with 65,280 tokens, optimizing both efficiency and accuracy. The model delivers competitive results across multiple languages, including Thai, Arabic, French, Chinese, and English, outperforming Alibaba's PolyLM-1.7B on respective evaluation datasets. Xmodel-1.5 excels in benchmarks like mMMLU and PIQA, and achieves state-of-the-art results in Thai. To support low-resource language research, we release Xdata_Thai, a Thai-specific evaluation dataset featuring unique linguistic challenges such as gendered particles and idioms. While the model demonstrates strong performance, there is still room for improvement in handling culturally specific nuances. We hope this work contributes to advancements in multilingual AI research. Models and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelLM-1.5