Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training

📄 arXiv: 2507.09205v4 📥 PDF

作者: Leiyu Pan, Bojian Xiong, Lei Yang, Renren Jin, Shaowei Zhang, Yue Chen, Ling Shi, Jiang Zhou, Junru Wu, Zhen Wang, Jianxiang Peng, Juesi Xiao, Tianyu Dong, Zhuowen Han, Zhuo Chen, Yuqi Ren, Deyi Xiong

分类: cs.CL

发布日期: 2025-07-12 (更新: 2025-07-28)


💡 一句话要点

通过数据构建与持续预训练,提升大型语言模型在藏语上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 藏语 低资源语言 预训练 数据构建 持续学习 自然语言处理

📋 核心要点

  1. 现有大型语言模型在藏语等低资源语言上表现不足,主要原因是缺乏高质量的训练数据。
  2. 论文通过构建大规模藏语预训练语料库,并对多语言模型进行持续预训练,提升藏语生成能力。
  3. 实验结果表明,该模型在多个藏语任务上显著优于现有模型,包括开源模型和藏语定制模型。

📝 摘要(中文)

大型语言模型在多种语言上取得了显著进展。然而,藏语作为一种典型的低资源语言,由于高质量训练语料的稀缺,在现有模型中尤其缺乏代表性。为了解决这个问题,我们构建了迄今为止最大的藏语预训练语料库,汇集了来自不同来源的数据,并应用了专门为藏语定制的数据清洗和处理流程。利用整理后的数据,我们持续地对多语言基础模型进行预训练/后训练,以增强其在藏语中的生成能力。为了评估模型在藏语方面的能力,我们创建了新的高质量藏语基准,并用现有的公共基准进行补充。实验结果表明,我们的模型在各种任务中始终显著优于类似规模的开源模型和专门为藏语定制的模型。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在藏语等低资源语言上表现不佳的问题。现有方法面临的主要痛点是缺乏高质量的藏语训练数据,这限制了模型在藏语理解和生成方面的能力。

核心思路:论文的核心思路是通过构建大规模、高质量的藏语预训练语料库,并在此基础上对现有的多语言模型进行持续预训练,从而提升模型在藏语上的表现。这种方法旨在利用多语言模型的知识迁移能力,并结合专门为藏语定制的数据处理流程,以克服数据稀缺的挑战。

技术框架:整体流程包括以下几个主要阶段:1) 数据收集:从各种来源收集藏语数据,包括网络文本、书籍、新闻等。2) 数据清洗和处理:应用专门为藏语定制的数据清洗和处理流程,包括去除噪声、标准化文本、分词等。3) 模型预训练:利用整理后的数据,对多语言基础模型进行持续预训练,以增强其在藏语上的生成能力。4) 模型评估:创建新的高质量藏语基准,并用现有的公共基准进行补充,以评估模型在藏语方面的能力。

关键创新:论文的关键创新点在于构建了迄今为止最大的藏语预训练语料库,并应用了专门为藏语定制的数据清洗和处理流程。与现有方法相比,该方法能够更有效地利用有限的藏语数据,并提升模型在藏语上的表现。此外,持续预训练的方法也能够更好地利用多语言模型的知识迁移能力。

关键设计:论文中关于参数设置、损失函数、网络结构等技术细节没有详细描述,属于未知信息。但可以推测,预训练过程可能采用了常见的语言模型训练目标,如Masked Language Modeling (MLM) 或 Causal Language Modeling (CLM)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在各种藏语任务中始终显著优于类似规模的开源模型和专门为藏语定制的模型。具体的性能数据和提升幅度在摘要中没有给出,属于未知信息。但总体而言,该研究成功地提升了大型语言模型在藏语上的表现,为低资源语言的自然语言处理研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于藏语信息处理的多个领域,如机器翻译、文本摘要、问答系统、藏语语音识别等。通过提升大型语言模型在藏语上的能力,可以促进藏语文化的传播和交流,并为藏语使用者提供更便捷的智能服务。未来,该研究还可以推广到其他低资源语言,为构建更加包容和多元的语言技术生态系统做出贡献。

📄 摘要(原文)

Large language models have achieved remarkable progress across many languages. However, Tibetan, as a representative low-resource language, is particularly underrepresented in existing models due to the scarcity of high-quality training corpora. To address this gap, we curate the largest Tibetan pre-training corpus to date, aggregating data from diverse sources and applying a dedicated data cleaning and processing pipeline tailored for Tibetan. With the curated data, we continue pre/post-training a multilingual base model to enhance its generative capabilities in Tibetan. To evaluate the Tibetan capabilities of the model, we create new high-quality Tibetan benchmarks, and complement them with existing public benchmarks. Experimental results demonstrate that our model consistently and significantly outperforms both open-source models of similar scale and Tibetan-tailored models across a wide range of tasks.