TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling

作者: Cheng Huang, Fan Gao, Yutong Liu, Nyima Tashi, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu

分类: cs.CL

发布日期: 2025-03-24 (更新: 2025-08-04)

🔗 代码/项目: GITHUB

💡 一句话要点

构建大规模结构化藏语基准数据集TIB-STC，促进低资源语言建模

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 藏语 低资源语言 大型语言模型 数据集 自然语言处理

📋 核心要点

现有大型语言模型在低资源语言（如藏语）上的发展相对滞后，缺乏高质量的数据集支持。
论文构建了大规模结构化藏语基准数据集TIB-STC，涵盖多领域，旨在促进藏语LLM的开发和评估。
通过在TIB-STC上训练参考模型Sun-Shine，并在TLUE基准上评估，验证了数据集的有效性。

📝 摘要（中文）

本文提出了TIB-STC，这是首个大规模、专家策划、多领域的藏语数据集，专门用于支持藏语大型语言模型的开发和评估。TIB-STC涵盖文学、宗教、医学、法律和日常交流等领域，包含超过110亿个token，保留了传统的语法和丰富的文风。为了验证其有效性，我们使用TIB-STC训练了一个参考模型Sun-Shine，该模型通过预训练、监督微调和偏好优化三个阶段的流程进行训练。在藏语特定任务的TLUE基准测试（包括Ti-MMLU和Ti-SafetyBench）上的评估表明，TIB-STC能够实现稳健的指令跟随和符合文化背景的内容生成。我们发布TIB-STC，以推进低资源语言建模的研究，并促进多语言自然语言处理的包容性。所有数据均已公开。

🔬 方法详解

问题定义：现有的大型语言模型在藏语等低资源语言上的表现不佳，主要原因是缺乏大规模、高质量的训练数据集。这限制了藏语自然语言处理技术的发展，也使得藏语文化和知识难以有效地数字化和传播。现有方法难以满足藏语语言建模的需求，尤其是在指令跟随和文化对齐方面存在挑战。

核心思路：论文的核心思路是构建一个大规模、结构化的藏语数据集TIB-STC，该数据集涵盖多个领域，并且由专家进行策划，以保证数据的质量和多样性。通过提供高质量的训练数据，可以有效地提升大型语言模型在藏语上的性能，并促进藏语自然语言处理技术的发展。

技术框架：论文采用三阶段的训练流程来验证TIB-STC的有效性。首先，使用TIB-STC对模型进行预训练，使其学习藏语的语言特征。然后，使用监督微调技术，在特定任务上对模型进行微调，以提升其在这些任务上的性能。最后，使用偏好优化技术，进一步提升模型的指令跟随能力和文化对齐能力。Sun-Shine模型是基于该流程训练的参考模型。

关键创新：TIB-STC是首个大规模、专家策划、多领域的藏语数据集，为藏语大型语言模型的发展提供了重要的资源。该数据集的构建过程注重数据的质量和多样性，并且保留了传统的语法和丰富的文风。此外，论文还提出了一个三阶段的训练流程，可以有效地提升大型语言模型在藏语上的性能。

关键设计：TIB-STC数据集包含超过110亿个token，涵盖文学、宗教、医学、法律和日常交流等领域。在数据收集和清洗过程中，论文注重数据的质量和多样性，并且保留了传统的语法和丰富的文风。Sun-Shine模型的训练过程中，采用了预训练、监督微调和偏好优化等技术，以提升模型的性能。

🖼️ 关键图片

📊 实验亮点

通过在TIB-STC上训练的Sun-Shine模型在TLUE基准测试中表现出色，证明了TIB-STC数据集的有效性。该模型在Ti-MMLU和Ti-SafetyBench等任务上取得了显著的性能提升，表明TIB-STC能够有效提升模型的指令跟随能力和文化对齐能力。具体的性能数据在论文中进行了详细的展示和分析。

🎯 应用场景

该研究成果可广泛应用于藏语信息处理领域，例如机器翻译、文本摘要、问答系统、藏文语音识别等。TIB-STC数据集的发布将促进藏语自然语言处理技术的发展，使得藏语文化和知识能够更好地数字化和传播，为藏族人民提供更便捷的语言服务，并促进多语言自然语言处理的包容性。

📄 摘要（原文）

Advancement of large language models (LLMs) has brought transformative capabilities to NLP, but such progress remains unevenly distributed, especially for low-resource and culturally rich languages like Tibetan. In this paper, we present TIB-STC, the first large-scale, expert-curated, and multi-domain dataset specifically designed to support the development and evaluation of LLMs for the Tibetan language. Spanning over 11 billion tokens across literature, religion, medicine, law, and daily communication, TIB-STC preserves traditional grammar and stylistic richness. To validate its utility, we train a reference model, Sun-Shine, on TIB-STC through a three-stage pipeline involving pretraining, supervised fine-tuning, and preference optimization. Evaluation on TLUE Benchmark for Tibetan-specific tasks, including Ti-MMLU and Ti-SafetyBench, demonstrates the TIB-STC's effectiveness in enabling robust instruction-following and culturally aligned generation. We release TIB-STC to advance research in low-resource language modeling and promote inclusivity in multilingual NLP. All data are available: https://github.com/Vicentvankor/sun-shine.

TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理