SEA-LION: Southeast Asian Languages in One Network
作者: Raymond Ng, Thanh Ngan Nguyen, Yuli Huang, Ngee Chia Tai, Wai Yi Leong, Wei Qi Leong, Xianbin Yong, Jian Gang Ngui, Yosephine Susanto, Nicholas Cheng, Hamsawardhini Rengarajan, Peerat Limkonchotiwat, Adithya Venkatadri Hulagadri, Kok Wai Teng, Yeo Yeow Tong, Bryan Siow, Wei Yi Teo, Wayne Lau, Choon Meng Tan, Brandon Ong, Zhi Hao Ong, Jann Railey Montalan, Adwin Chan, Sajeban Antonyrex, Ren Lee, Esther Choa, David Ong Tat-Wee, Bing Jie Darius Liu, William Chandra Tjhi, Erik Cambria, Leslie Teo
分类: cs.CL
发布日期: 2025-04-08 (更新: 2025-10-30)
备注: Accepted at IJCNLP-AACL 2025 (Main Track). We released our model at https://huggingface.co/collections/aisingapore/sea-lionv3-672589a39cdadd6a5b199581
💡 一句话要点
提出SEA-LION,一个面向东南亚语言的先进多语言LLM。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多语言模型 东南亚语言 指令微调 持续预训练 模型合并 自然语言处理
📋 核心要点
- 现有LLM研究主要集中在英语上,导致东南亚等低资源语言缺乏充分的代表性。
- SEA-LION通过大规模多语言持续预训练和综合后训练机制,构建面向东南亚语言的LLM。
- 实验结果表明,SEA-LION模型在支持东南亚语言的LLM中取得了最先进的性能。
📝 摘要(中文)
本文介绍Llama-SEA-LION-v3-8B-IT和Gemma-SEA-LION-v3-9B-IT,两个专为东南亚(SEA)语言设计的前沿多语言大型语言模型(LLM)。SEA-LION系列LLM支持11种SEA语言,包括英语、中文、印尼语、越南语、马来语、泰语、缅甸语、老挝语、菲律宾语、泰米尔语和高棉语。该工作利用大规模多语言持续预训练,以及包括多阶段指令微调、对齐和模型合并的综合后训练机制。在多语言基准测试上的评估结果表明,该模型在支持SEA语言的LLM中实现了最先进的性能。该模型已开源,以惠及更广泛的SEA社区。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)主要以英语为中心进行研究和开发,导致东南亚(SEA)地区的低资源语言缺乏足够的关注和支持。这限制了这些语言在自然语言处理领域的应用,也使得针对这些语言的特定任务难以获得良好的性能。
核心思路:SEA-LION的核心思路是通过大规模的多语言持续预训练,以及精细的后训练流程,来提升LLM在东南亚语言上的性能。通过在包含多种东南亚语言的大规模语料库上进行预训练,模型能够学习到这些语言的语法、语义和文化背景知识。后训练流程则进一步优化模型的指令遵循能力和生成质量。
技术框架:SEA-LION的整体框架包括以下几个主要阶段:1) 大规模多语言持续预训练:使用包含11种SEA语言的大规模语料库进行预训练。2) 指令微调:使用指令数据集对模型进行微调,提高其指令遵循能力。3) 对齐:通过技术手段使模型的输出与人类的偏好对齐,提高生成内容的质量和安全性。4) 模型合并:将多个经过不同训练的模型进行合并,以获得更好的性能和泛化能力。
关键创新:SEA-LION的关键创新在于其针对东南亚语言的定制化设计。它不仅仅是简单地将现有的LLM应用于这些语言,而是通过专门的数据集构建和训练流程,来充分利用这些语言的特性。此外,多阶段的后训练流程也是一个重要的创新点,它能够有效地提升模型的性能和可靠性。
关键设计:SEA-LION使用了Llama和Gemma作为基础模型,并在此基础上进行了改进。在预训练阶段,使用了大规模的多语言语料库,并采用了特定的数据清洗和预处理方法。在指令微调阶段,使用了高质量的指令数据集,并采用了合适的损失函数和优化器。模型合并阶段则采用了加权平均等方法,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
SEA-LION在多语言基准测试中取得了最先进的性能,超过了其他支持东南亚语言的LLM。具体性能数据未在摘要中给出,但强调了其在相关语言处理任务上的优越性。开源模型将促进社区发展和进一步研究。
🎯 应用场景
SEA-LION模型可广泛应用于东南亚地区的自然语言处理任务,如机器翻译、文本摘要、情感分析、问答系统等。它能够帮助解决这些语言在信息技术应用中面临的资源匮乏问题,促进当地的文化交流和经济发展。未来,SEA-LION有望成为东南亚语言智能应用的基础设施。
📄 摘要(原文)
Recently, Large Language Models (LLMs) have dominated much of the artificial intelligence scene with their ability to process and generate natural languages. However, the majority of LLM research and development remains English-centric, leaving low-resource languages such as those in the Southeast Asian (SEA) region under-represented. To address this representation gap, we introduce Llama-SEA-LION-v3-8B-IT and Gemma-SEA-LION-v3-9B-IT, two cutting-edge multilingual LLMs designed for SEA languages. The SEA-LION family of LLMs supports 11 SEA languages, namely English, Chinese, Indonesian, Vietnamese, Malay, Thai, Burmese, Lao, Filipino, Tamil, and Khmer. Our work leverages large-scale multilingual continued pre-training with a comprehensive post-training regime involving multiple stages of instruction fine-tuning, alignment, and model merging. Evaluation results on multilingual benchmarks indicate that our models achieve state-of-the-art performance across LLMs supporting SEA languages. We open-source the models to benefit the wider SEA community.