FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
作者: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
分类: cs.CL
发布日期: 2024-08-12 (更新: 2024-10-26)
备注: Accepted to EMNLP 2024 Industry Track
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
FuxiTranyu:一个使用平衡数据训练的多语言大型语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 大型语言模型 平衡数据集 指令调优 低资源语言 跨语言理解 DPO优化
📋 核心要点
- 现有大型语言模型在不同语言上的性能存在显著差异,低资源语言表现较差,限制了其通用性和公平性。
- FuxiTranyu通过构建平衡的多语言数据集,并在此基础上训练80亿参数的LLM,旨在提升模型在各种语言上的性能。
- 实验结果表明,FuxiTranyu在多语言基准测试中表现出色,与现有模型相比具有竞争力,并实现了跨语言一致的表示。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中展现了强大的能力。然而,许多LLM在高资源和低资源语言之间表现出显著的性能差异。为了缓解这一挑战,我们提出了FuxiTranyu,一个开源的多语言LLM,旨在满足研究社区对平衡和高性能多语言能力的需求。基础模型FuxiTranyu-8B具有80亿参数,并且从头开始在精心平衡的多语言数据上进行训练,该数据包含覆盖43种自然语言和16种编程语言的6000亿个tokens。我们还开发了两个指令调优模型:FuxiTranyu-8B-SFT,它在多样化的多语言指令数据集上进行微调;以及FuxiTranyu-8B-DPO,它通过DPO在偏好数据集上进一步优化,以增强对齐能力。在各种多语言基准上的广泛实验表明,FuxiTranyu相对于现有的多语言LLM(例如,BLOOM-7B,PolyLM-13B和Mistral-7B-Instruct)具有竞争优势。神经元和表示的可解释性分析表明,FuxiTranyu在各种语言中实现了统一的多语言表示。为了促进对多语言LLM的进一步研究,我们发布了基础模型和指令调优的FuxiTranyu模型,以及HuggingFace(https://huggingface.co/TJUNLP/FuxiTranyu-8B)和Github(https://github.com/tjunlp-lab/FuxiTranyu)上的58个预训练检查点。
🔬 方法详解
问题定义:论文旨在解决多语言大型语言模型在高低资源语言上性能不平衡的问题。现有模型通常在高资源语言上表现良好,但在低资源语言上性能显著下降,这限制了模型的通用性和公平性。这种不平衡主要是由于训练数据中不同语言的比例差异造成的。
核心思路:论文的核心思路是通过构建一个精心平衡的多语言数据集来训练LLM,从而使模型能够更好地学习各种语言的表示。通过平衡不同语言的数据量,可以减少模型对高资源语言的过度拟合,并提高在低资源语言上的泛化能力。
技术框架:FuxiTranyu的训练过程包括以下几个阶段:首先,构建包含43种自然语言和16种编程语言的平衡多语言数据集,总共包含6000亿个tokens。然后,使用该数据集从头开始训练一个80亿参数的基础模型FuxiTranyu-8B。接着,在多语言指令数据集上对基础模型进行微调,得到FuxiTranyu-8B-SFT模型。最后,使用DPO(Direct Preference Optimization)在偏好数据集上进一步优化SFT模型,得到FuxiTranyu-8B-DPO模型。
关键创新:论文的关键创新在于构建了一个精心平衡的多语言数据集,并在此基础上训练LLM。这种平衡的数据集能够有效地解决多语言LLM在高低资源语言上性能不平衡的问题。此外,论文还采用了DPO方法来进一步优化模型的对齐能力。
关键设计:FuxiTranyu-8B模型具有80亿参数,采用Transformer架构。数据集包含43种自然语言和16种编程语言,总共6000亿个tokens。在指令调优阶段,使用了多样化的多语言指令数据集。DPO优化阶段使用了偏好数据集,以增强模型的对齐能力。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明。
🖼️ 关键图片
📊 实验亮点
FuxiTranyu在各种多语言基准测试中表现出与现有模型(如BLOOM-7B,PolyLM-13B和Mistral-7B-Instruct)相当甚至更优越的性能。神经元和表示的可解释性分析表明,FuxiTranyu在不同语言之间实现了统一的多语言表示,证明了其在多语言理解方面的有效性。
🎯 应用场景
FuxiTranyu可应用于多语言机器翻译、跨语言信息检索、多语言文本摘要、多语言对话系统等领域。该研究有助于推动低资源语言的自然语言处理发展,促进全球范围内的信息交流和文化传播。未来,可以进一步探索如何利用FuxiTranyu构建更加智能和通用的多语言应用。
📄 摘要(原文)
Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. The base model, FuxiTranyu-8B, features 8 billion parameters and is trained from scratch on meticulously balanced multilingual data that contains 600 billion tokens covering 43 natural languages and 16 programming languages. We also develop two instruction-tuned models: FuxiTranyu-8B-SFT which is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO which is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, and Mistral-7B-Instruct. Both neuron and representation interpretability analyses reveal that FuxiTranyu achieves consistent multilingual representations across languages. To promote further research into multilingual LLMs, we release both the base and instruction-tuned FuxiTranyu models together with 58 pre-training checkpoints at HuggingFace (see https://huggingface.co/TJUNLP/FuxiTranyu-8B) and Github (see https://github.com/tjunlp-lab/FuxiTranyu).