Typhoon: Thai Large Language Models

📄 arXiv: 2312.13951v1 📥 PDF

作者: Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul, Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant, Kasima Tharnpipitchai

分类: cs.CL, cs.AI

发布日期: 2023-12-21

备注: technical report, 12 pages


💡 一句话要点

Typhoon:为泰语设计的开源大型语言模型,性能媲美GPT-3.5。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 泰语LLM 大型语言模型 持续训练 低资源语言 ThaiExam 指令调优 自然语言处理

📋 核心要点

  1. 低资源语言的LLM开发面临数据稀缺的挑战,阻碍模型性能。
  2. 采用持续训练方法,从现有大型LLM迁移知识,提升泰语LLM的性能。
  3. Typhoon在泰语基准测试中超越现有开源模型,并接近GPT-3.5的水平。

📝 摘要(中文)

Typhoon是一系列专为泰语设计的大型语言模型(LLM)。本技术报告介绍了开发泰语LLM的挑战和见解,包括数据准备、预训练、指令调优和评估。由于低资源语言面临预训练数据量不足的挑战,我们采用持续训练来迁移现有强大LLM的世界知识。为了评估每个模型在预训练阶段所包含的泰语知识,我们开发了ThaiExam,这是一个基于泰国高中生和投资专业人士考试的基准。此外,我们对Typhoon进行微调以遵循泰语指令,并在泰语指令数据集以及翻译、摘要和问答任务上评估指令调优模型。在泰语基准测试套件上的实验结果表明,Typhoon优于所有开源泰语语言模型,并且在泰语方面的性能与GPT-3.5相当,同时只有70亿参数,并且在标记化泰语文本时效率提高了2.62倍。

🔬 方法详解

问题定义:泰语作为低资源语言,缺乏高质量的预训练数据,导致现有泰语LLM的性能受限。现有方法难以充分利用通用LLM中蕴含的知识,且缺乏针对泰语知识的有效评估基准。

核心思路:通过持续训练(Continual Training)的方式,将现有大型LLM(例如英文LLM)中蕴含的通用知识迁移到泰语LLM中,从而缓解数据稀缺问题。同时,构建专门针对泰语知识的评估基准ThaiExam,以更准确地评估模型的泰语理解能力。

技术框架:Typhoon的开发流程主要包括数据准备、预训练、指令调优和评估四个阶段。首先,收集和清洗泰语数据,用于后续的预训练和指令调优。然后,在预训练阶段,采用持续训练的方法,以一个强大的LLM为基础,继续在泰语数据集上进行训练。接着,使用泰语指令数据集对模型进行指令调优,使其能够更好地理解和执行泰语指令。最后,使用ThaiExam以及其他泰语基准测试对模型进行评估。

关键创新:该论文的关键创新在于将持续训练应用于泰语LLM的开发,并构建了专门针对泰语知识的评估基准ThaiExam。与从头开始训练泰语LLM相比,持续训练能够更有效地利用现有知识,从而在数据有限的情况下提升模型性能。ThaiExam则能够更准确地评估模型的泰语理解能力,为模型优化提供更有效的指导。

关键设计:在持续训练阶段,选择一个性能强大的LLM作为基础模型,并根据泰语数据的特点调整训练策略。ThaiExam的设计参考了泰国高中生和投资专业人士的考试内容,涵盖了多个领域的泰语知识。在指令调优阶段,使用高质量的泰语指令数据集,并采用合适的损失函数和优化算法。

📊 实验亮点

Typhoon在多个泰语基准测试中取得了显著成果,超越了所有开源泰语语言模型。尤其值得一提的是,Typhoon在泰语方面的性能与GPT-3.5相当,但参数量仅为70亿,并且在标记化泰语文本时效率提高了2.62倍。ThaiExam基准测试的引入也为泰语LLM的评估提供了新的视角。

🎯 应用场景

Typhoon可广泛应用于泰语自然语言处理任务,如机器翻译、文本摘要、问答系统、情感分析等。它能够为泰语用户提供更智能、更便捷的服务,并促进泰语文化和知识的传播。未来,Typhoon有望成为泰语领域的基础模型,推动相关技术的发展。

📄 摘要(原文)

Typhoon is a series of Thai large language models (LLMs) developed specifically for the Thai language. This technical report presents challenges and insights in developing Thai LLMs, including data preparation, pretraining, instruction-tuning, and evaluation. As one of the challenges of low-resource languages is the amount of pretraining data, we apply continual training to transfer existing world knowledge from a strong LLM. To evaluate the Thai knowledge encapsulated in each model from the pretraining stage, we develop ThaiExam, a benchmark based on examinations for high-school students and investment professionals in Thailand. In addition, we fine-tune Typhoon to follow Thai instructions, and we evaluate instruction-tuned models on Thai instruction datasets as well as translation, summarization, and question-answering tasks. Experimental results on a suite of Thai benchmarks show that Typhoon outperforms all open-source Thai language models, and its performance is on par with GPT-3.5 in Thai while having only 7 billion parameters and being 2.62 times more efficient in tokenizing Thai text.