Typhoon: Thai Large Language Models

作者: Kunat Pipatanakul, Phatrasek Jirabovonvisut, Potsawee Manakul, Sittipong Sripaisarnmongkol, Ruangsak Patomwong, Pathomporn Chokchainant, Kasima Tharnpipitchai

分类: cs.CL, cs.AI

发布日期: 2023-12-21

备注: technical report, 12 pages

💡 一句话要点

Typhoon：为泰语设计的开源大型语言模型，性能媲美GPT-3.5。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 泰语LLM 大型语言模型 持续训练 低资源语言 ThaiExam 指令调优 自然语言处理

📋 核心要点

低资源语言的LLM开发面临数据稀缺的挑战，阻碍模型性能。
采用持续训练方法，从现有大型LLM迁移知识，提升泰语LLM的性能。
Typhoon在泰语基准测试中超越现有开源模型，并接近GPT-3.5的水平。

📝 摘要（中文）

Typhoon是一系列专为泰语设计的大型语言模型（LLM）。本技术报告介绍了开发泰语LLM的挑战和见解，包括数据准备、预训练、指令调优和评估。由于低资源语言面临预训练数据量不足的挑战，我们采用持续训练来迁移现有强大LLM的世界知识。为了评估每个模型在预训练阶段所包含的泰语知识，我们开发了ThaiExam，这是一个基于泰国高中生和投资专业人士考试的基准。此外，我们对Typhoon进行微调以遵循泰语指令，并在泰语指令数据集以及翻译、摘要和问答任务上评估指令调优模型。在泰语基准测试套件上的实验结果表明，Typhoon优于所有开源泰语语言模型，并且在泰语方面的性能与GPT-3.5相当，同时只有70亿参数，并且在标记化泰语文本时效率提高了2.62倍。

🔬 方法详解

问题定义：泰语作为低资源语言，缺乏高质量的预训练数据，导致现有泰语LLM的性能受限。现有方法难以充分利用通用LLM中蕴含的知识，且缺乏针对泰语知识的有效评估基准。

核心思路：通过持续训练（Continual Training）的方式，将现有大型LLM（例如英文LLM）中蕴含的通用知识迁移到泰语LLM中，从而缓解数据稀缺问题。同时，构建专门针对泰语知识的评估基准ThaiExam，以更准确地评估模型的泰语理解能力。

技术框架：Typhoon的开发流程主要包括数据准备、预训练、指令调优和评估四个阶段。首先，收集和清洗泰语数据，用于后续的预训练和指令调优。然后，在预训练阶段，采用持续训练的方法，以一个强大的LLM为基础，继续在泰语数据集上进行训练。接着，使用泰语指令数据集对模型进行指令调优，使其能够更好地理解和执行泰语指令。最后，使用ThaiExam以及其他泰语基准测试对模型进行评估。

关键创新：该论文的关键创新在于将持续训练应用于泰语LLM的开发，并构建了专门针对泰语知识的评估基准ThaiExam。与从头开始训练泰语LLM相比，持续训练能够更有效地利用现有知识，从而在数据有限的情况下提升模型性能。ThaiExam则能够更准确地评估模型的泰语理解能力，为模型优化提供更有效的指导。

关键设计：在持续训练阶段，选择一个性能强大的LLM作为基础模型，并根据泰语数据的特点调整训练策略。ThaiExam的设计参考了泰国高中生和投资专业人士的考试内容，涵盖了多个领域的泰语知识。在指令调优阶段，使用高质量的泰语指令数据集，并采用合适的损失函数和优化算法。

📊 实验亮点

Typhoon在多个泰语基准测试中取得了显著成果，超越了所有开源泰语语言模型。尤其值得一提的是，Typhoon在泰语方面的性能与GPT-3.5相当，但参数量仅为70亿，并且在标记化泰语文本时效率提高了2.62倍。ThaiExam基准测试的引入也为泰语LLM的评估提供了新的视角。

🎯 应用场景

Typhoon可广泛应用于泰语自然语言处理任务，如机器翻译、文本摘要、问答系统、情感分析等。它能够为泰语用户提供更智能、更便捷的服务，并促进泰语文化和知识的传播。未来，Typhoon有望成为泰语领域的基础模型，推动相关技术的发展。

📄 摘要（原文）

Typhoon is a series of Thai large language models (LLMs) developed specifically for the Thai language. This technical report presents challenges and insights in developing Thai LLMs, including data preparation, pretraining, instruction-tuning, and evaluation. As one of the challenges of low-resource languages is the amount of pretraining data, we apply continual training to transfer existing world knowledge from a strong LLM. To evaluate the Thai knowledge encapsulated in each model from the pretraining stage, we develop ThaiExam, a benchmark based on examinations for high-school students and investment professionals in Thailand. In addition, we fine-tune Typhoon to follow Thai instructions, and we evaluate instruction-tuned models on Thai instruction datasets as well as translation, summarization, and question-answering tasks. Experimental results on a suite of Thai benchmarks show that Typhoon outperforms all open-source Thai language models, and its performance is on par with GPT-3.5 in Thai while having only 7 billion parameters and being 2.62 times more efficient in tokenizing Thai text.

Typhoon: Thai Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册