TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling

📄 arXiv: 2503.18288v5 📥 PDF

作者: Cheng Huang, Fan Gao, Yutong Liu, Nyima Tashi, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu

分类: cs.CL

发布日期: 2025-03-24 (更新: 2025-08-04)

🔗 代码/项目: GITHUB


💡 一句话要点

构建大规模结构化藏语基准数据集TIB-STC,促进低资源语言建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 藏语 低资源语言 大型语言模型 数据集 自然语言处理

📋 核心要点

  1. 现有大型语言模型在低资源语言(如藏语)上的发展相对滞后,缺乏高质量的数据集支持。
  2. 论文构建了大规模结构化藏语基准数据集TIB-STC,涵盖多领域,旨在促进藏语LLM的开发和评估。
  3. 通过在TIB-STC上训练参考模型Sun-Shine,并在TLUE基准上评估,验证了数据集的有效性。

📝 摘要(中文)

本文提出了TIB-STC,这是首个大规模、专家策划、多领域的藏语数据集,专门用于支持藏语大型语言模型的开发和评估。TIB-STC涵盖文学、宗教、医学、法律和日常交流等领域,包含超过110亿个token,保留了传统的语法和丰富的文风。为了验证其有效性,我们使用TIB-STC训练了一个参考模型Sun-Shine,该模型通过预训练、监督微调和偏好优化三个阶段的流程进行训练。在藏语特定任务的TLUE基准测试(包括Ti-MMLU和Ti-SafetyBench)上的评估表明,TIB-STC能够实现稳健的指令跟随和符合文化背景的内容生成。我们发布TIB-STC,以推进低资源语言建模的研究,并促进多语言自然语言处理的包容性。所有数据均已公开。

🔬 方法详解

问题定义:现有的大型语言模型在藏语等低资源语言上的表现不佳,主要原因是缺乏大规模、高质量的训练数据集。这限制了藏语自然语言处理技术的发展,也使得藏语文化和知识难以有效地数字化和传播。现有方法难以满足藏语语言建模的需求,尤其是在指令跟随和文化对齐方面存在挑战。

核心思路:论文的核心思路是构建一个大规模、结构化的藏语数据集TIB-STC,该数据集涵盖多个领域,并且由专家进行策划,以保证数据的质量和多样性。通过提供高质量的训练数据,可以有效地提升大型语言模型在藏语上的性能,并促进藏语自然语言处理技术的发展。

技术框架:论文采用三阶段的训练流程来验证TIB-STC的有效性。首先,使用TIB-STC对模型进行预训练,使其学习藏语的语言特征。然后,使用监督微调技术,在特定任务上对模型进行微调,以提升其在这些任务上的性能。最后,使用偏好优化技术,进一步提升模型的指令跟随能力和文化对齐能力。Sun-Shine模型是基于该流程训练的参考模型。

关键创新:TIB-STC是首个大规模、专家策划、多领域的藏语数据集,为藏语大型语言模型的发展提供了重要的资源。该数据集的构建过程注重数据的质量和多样性,并且保留了传统的语法和丰富的文风。此外,论文还提出了一个三阶段的训练流程,可以有效地提升大型语言模型在藏语上的性能。

关键设计:TIB-STC数据集包含超过110亿个token,涵盖文学、宗教、医学、法律和日常交流等领域。在数据收集和清洗过程中,论文注重数据的质量和多样性,并且保留了传统的语法和丰富的文风。Sun-Shine模型的训练过程中,采用了预训练、监督微调和偏好优化等技术,以提升模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在TIB-STC上训练的Sun-Shine模型在TLUE基准测试中表现出色,证明了TIB-STC数据集的有效性。该模型在Ti-MMLU和Ti-SafetyBench等任务上取得了显著的性能提升,表明TIB-STC能够有效提升模型的指令跟随能力和文化对齐能力。具体的性能数据在论文中进行了详细的展示和分析。

🎯 应用场景

该研究成果可广泛应用于藏语信息处理领域,例如机器翻译、文本摘要、问答系统、藏文语音识别等。TIB-STC数据集的发布将促进藏语自然语言处理技术的发展,使得藏语文化和知识能够更好地数字化和传播,为藏族人民提供更便捷的语言服务,并促进多语言自然语言处理的包容性。

📄 摘要(原文)

Advancement of large language models (LLMs) has brought transformative capabilities to NLP, but such progress remains unevenly distributed, especially for low-resource and culturally rich languages like Tibetan. In this paper, we present TIB-STC, the first large-scale, expert-curated, and multi-domain dataset specifically designed to support the development and evaluation of LLMs for the Tibetan language. Spanning over 11 billion tokens across literature, religion, medicine, law, and daily communication, TIB-STC preserves traditional grammar and stylistic richness. To validate its utility, we train a reference model, Sun-Shine, on TIB-STC through a three-stage pipeline involving pretraining, supervised fine-tuning, and preference optimization. Evaluation on TLUE Benchmark for Tibetan-specific tasks, including Ti-MMLU and Ti-SafetyBench, demonstrates the TIB-STC's effectiveness in enabling robust instruction-following and culturally aligned generation. We release TIB-STC to advance research in low-resource language modeling and promote inclusivity in multilingual NLP. All data are available: https://github.com/Vicentvankor/sun-shine.