WangchanThaiInstruct: An instruction-following Dataset for Culture-Aware, Multitask, and Multi-domain Evaluation in Thai

📄 arXiv: 2508.15239v2 📥 PDF

作者: Peerat Limkonchotiwat, Pume Tuchinda, Lalita Lowphansirikul, Surapon Nonesung, Panuthep Tasawong, Alham Fikri Aji, Can Udomcharoenchaikit, Sarana Nutanong

分类: cs.CL

发布日期: 2025-08-21 (更新: 2025-09-19)

备注: Accepted to EMNLP 2025 (Main). Model and Dataset: https://huggingface.co/collections/airesearch/wangchan-thai-instruction-6835722a30b98e01598984fd


💡 一句话要点

WangchanThaiInstruct:一个用于评估泰语文化感知、多任务和多领域的大型语言模型数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 泰语自然语言处理 指令遵循 大型语言模型 低资源语言 数据集构建

📋 核心要点

  1. 现有大型语言模型在泰语等低资源语言上的指令遵循能力不足,且缺乏文化和领域特定知识。
  2. 论文提出了WangchanThaiInstruct数据集,该数据集专为泰语环境设计,包含文化和专业领域的指令数据。
  3. 实验表明,使用WangchanThaiInstruct微调的模型在泰语任务上优于使用翻译数据微调的模型,提升了LLM的对齐效果。

📝 摘要(中文)

大型语言模型在英语的指令遵循方面表现出色,但在泰语等低资源语言中的性能仍有待探索。现有的基准测试通常依赖于翻译,忽略了真实世界使用所需的文化和领域特定细微差别。我们提出了WangchanThaiInstruct,这是一个人工编写的泰语数据集,用于评估和指令微调,涵盖四个专业领域和七种任务类型。通过与注释者、领域专家和AI研究人员进行的多阶段质量控制流程创建,WangchanThaiInstruct支持两项研究:(1)零样本评估,显示了在文化和专业特定任务上的性能差距;(2)指令微调研究,通过消融实验分离了原生监督的影响。在WangchanThaiInstruct上微调的模型在领域内和领域外的基准测试中均优于使用翻译数据的模型。这些发现强调了需要具有文化和专业基础的指令数据,以改善低资源、语言多样性环境中的LLM对齐。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在英语等高资源语言上表现出色,但在泰语等低资源语言上的指令遵循能力不足。现有的泰语数据集通常通过翻译英文数据集获得,缺乏对泰语文化和专业领域知识的深入理解,导致模型在实际应用中表现不佳。因此,需要一个专门为泰语设计的、包含文化和领域特定知识的指令数据集,以提升LLM在泰语环境下的性能。

核心思路:论文的核心思路是构建一个高质量的、人工编写的泰语指令数据集WangchanThaiInstruct。该数据集旨在涵盖不同的专业领域和任务类型,并融入泰语文化和领域知识,从而使LLM能够更好地理解和执行泰语指令。通过在该数据集上进行微调,可以提升LLM在泰语环境下的指令遵循能力和泛化能力。

技术框架:WangchanThaiInstruct数据集的构建流程包括以下几个主要阶段: 1. 任务和领域选择:选择涵盖不同专业领域(如法律、医学、金融等)和任务类型(如问答、摘要、翻译等)的指令。 2. 数据生成:由人工注释员根据选定的任务和领域编写泰语指令和相应的输出。 3. 质量控制:通过多阶段的质量控制流程,包括注释员自审、领域专家审核和AI研究人员评估,确保数据的质量和一致性。 4. 数据集发布:将最终的数据集发布,供研究人员使用。

关键创新:该论文的关键创新在于构建了一个高质量的、人工编写的泰语指令数据集WangchanThaiInstruct。与以往依赖翻译的数据集不同,WangchanThaiInstruct数据集专为泰语环境设计,包含文化和专业领域的指令数据,能够更好地反映泰语的语言特点和文化背景。此外,该数据集的构建过程采用了多阶段的质量控制流程,确保了数据的质量和一致性。

关键设计:WangchanThaiInstruct数据集涵盖了四个专业领域(法律、医学、金融和新闻)和七种任务类型(问答、摘要、翻译、文本生成、分类、编辑和推理)。数据集的构建过程中,采用了多阶段的质量控制流程,包括注释员自审、领域专家审核和AI研究人员评估。领域专家负责审核数据的专业性和准确性,AI研究人员负责评估数据的多样性和难度。通过这些设计,确保了数据集的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在WangchanThaiInstruct数据集上微调的模型在领域内和领域外的基准测试中均优于使用翻译数据微调的模型。具体而言,使用WangchanThaiInstruct微调的模型在某些任务上的性能提升高达10%以上。这些结果表明,使用原生指令数据可以显著提升LLM在低资源语言环境下的性能。

🎯 应用场景

该研究成果可广泛应用于泰语自然语言处理领域,例如智能客服、机器翻译、文本摘要、内容生成等。通过使用WangchanThaiInstruct数据集进行模型训练,可以提升LLM在泰语环境下的性能,使其更好地服务于泰语用户。此外,该研究也为其他低资源语言的LLM研究提供了借鉴意义,推动了多语言自然语言处理的发展。

📄 摘要(原文)

Large language models excel at instruction-following in English, but their performance in low-resource languages like Thai remains underexplored. Existing benchmarks often rely on translations, missing cultural and domain-specific nuances needed for real-world use. We present WangchanThaiInstruct, a human-authored Thai dataset for evaluation and instruction tuning, covering four professional domains and seven task types. Created through a multi-stage quality control process with annotators, domain experts, and AI researchers, WangchanThaiInstruct supports two studies: (1) a zero-shot evaluation showing performance gaps on culturally and professionally specific tasks, and (2) an instruction tuning study with ablations isolating the effect of native supervision. Models fine-tuned on WangchanThaiInstruct outperform those using translated data in both in-domain and out-of-domain benchmarks. These findings underscore the need for culturally and professionally grounded instruction data to improve LLM alignment in low-resource, linguistically diverse settings.