SinLlama -- A Large Language Model for Sinhala

📄 arXiv: 2508.09115v4 📥 PDF

作者: H. W. K. Aravinda, Rashad Sirajudeen, Samith Karunathilake, Nisansa de Silva, Surangika Ranathunga, Rishemjit Kaur

分类: cs.CL

发布日期: 2025-08-12 (更新: 2025-11-08)

DOI: 10.1109/MERCon67903.2025.11217094


💡 一句话要点

提出SinLlama以提升僧伽罗语的语言模型支持

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 僧伽罗语 大型语言模型 低资源语言 文本分类 自然语言处理

📋 核心要点

  1. 现有的多语言LLM对低资源语言如僧伽罗语的支持不足,导致其在自然语言处理任务中的表现不佳。
  2. 本研究通过扩展Llama-3-8B,增强其分词器并在大量僧伽罗语语料上进行预训练,提出了SinLlama模型。
  3. SinLlama在三项文本分类任务中经过微调后,显著超越了Llama-3-8B的基础和指令版本,展示了其有效性。

📝 摘要(中文)

低资源语言如僧伽罗语常被开源大型语言模型(LLMs)忽视。本研究扩展了现有的多语言LLM(Llama-3-8B),以更好地服务于僧伽罗语。我们增强了LLM的分词器,加入了特定于僧伽罗语的词汇,并在清理后的1000万条僧伽罗语语料上进行了持续预训练,最终形成了SinLlama模型。这是首个明确支持僧伽罗语的解码器基础开源LLM。在对SinLlama进行指令微调以完成三项文本分类任务时,其表现显著超越了Llama-3-8B的基础和指令变体。

🔬 方法详解

问题定义:本研究旨在解决低资源语言僧伽罗语在现有大型语言模型中的支持不足问题。现有的多语言LLM未能充分考虑僧伽罗语的特性,导致其在相关任务中的性能较差。

核心思路:论文的核心思路是通过扩展Llama-3-8B模型,增强其对僧伽罗语的支持。具体而言,研究者对模型的分词器进行了改进,加入了特定于僧伽罗语的词汇,并在清理后的1000万条僧伽罗语语料上进行了持续预训练。

技术框架:整体架构包括对Llama-3-8B模型的基础架构进行调整,增强分词器,进行语料清理和预训练,最后进行指令微调以适应特定的文本分类任务。主要模块包括数据预处理、模型训练和微调。

关键创新:SinLlama是首个明确支持僧伽罗语的解码器基础开源LLM,其创新在于针对低资源语言的特定需求进行了优化,显著提升了模型的适用性和性能。

关键设计:在模型设计中,研究者对分词器进行了特定于僧伽罗语的词汇扩展,确保了模型能够有效处理该语言的独特特征。同时,采用了适合僧伽罗语的损失函数和训练策略,以提高模型的学习效率和效果。

📊 实验亮点

在三项文本分类任务中,SinLlama经过指令微调后,表现显著优于Llama-3-8B的基础和指令变体,具体提升幅度未知,显示出其在处理僧伽罗语文本时的有效性和优势。

🎯 应用场景

SinLlama模型的提出为僧伽罗语的自然语言处理提供了强有力的工具,潜在应用领域包括机器翻译、文本分类、情感分析等。随着对低资源语言的关注增加,该模型的实际价值将不断提升,促进相关技术的发展与应用。

📄 摘要(原文)

Low-resource languages such as Sinhala are often overlooked by open-source Large Language Models (LLMs). In this research, we extend an existing multilingual LLM (Llama-3-8B) to better serve Sinhala. We enhance the LLM tokenizer with Sinhala specific vocabulary and perform continual pre-training on a cleaned 10 million Sinhala corpus, resulting in the SinLlama model. This is the very first decoder-based open-source LLM with explicit Sinhala support. When SinLlama was instruction fine-tuned for three text classification tasks, it outperformed base and instruct variants of Llama-3-8B by a significant margin.