TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish

📄 arXiv: 2407.12402v2 📥 PDF

作者: Arda Yüksel, Abdullatif Köksal, Lütfi Kerem Şenel, Anna Korhonen, Hinrich Schütze

分类: cs.CL

发布日期: 2024-07-17 (更新: 2024-10-03)

备注: EMNLP 2024 - Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出TurkishMMLU:首个土耳其语多任务选择题基准,用于评估LLM的理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 土耳其语 多任务学习 语言理解 大型语言模型 基准测试 选择题 自然语言处理

📋 核心要点

  1. 现有LLM多语言评估依赖自动翻译,易出错且引入文化偏见,尤其在社会科学领域。
  2. 构建包含10000+题目的TurkishMMLU基准,覆盖土耳其高中9个科目,由专家编写。
  3. 评估20+ LLM在TurkishMMLU上的表现,分析其土耳其语能力,并开源数据集和代码。

📝 摘要(中文)

本文提出了首个多任务、多项选择的土耳其语问答基准TurkishMMLU,旨在评估大型语言模型(LLM)对土耳其语的理解能力。现有的多语言评估方法依赖于自动翻译,容易出错,并可能引入文化偏见,尤其是在社会科学领域。TurkishMMLU包含超过10,000个问题,涵盖土耳其高中课程的9个不同科目,由课程专家编写,适合土耳其高中课程,涵盖自然科学、数学以及土耳其文学、土耳其共和国历史等具有文化代表性的主题。论文评估了20多个LLM,包括多语言开源模型(如Gemma、Llama、MT5)、闭源模型(GPT 4o、Claude、Gemini)和土耳其语适配模型(如Trendyol)。论文提供了广泛的评估,包括LLM的零样本和少样本评估、思维链推理以及问题难度分析与模型性能。通过深入分析当前LLM的土耳其语能力和局限性,为未来土耳其语LLM的研究提供了见解。代码已开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在土耳其语理解能力评估方面缺乏高质量基准的问题。现有方法依赖于将英文基准翻译成土耳其语,这引入了翻译误差和文化偏差,无法准确评估LLM在土耳其语环境下的真实能力。此外,现有基准可能无法充分覆盖土耳其当地的教育体系和文化背景。

核心思路:论文的核心思路是构建一个专门针对土耳其语的多任务选择题基准TurkishMMLU,该基准由土耳其语专家编写,题目内容贴合土耳其高中课程,涵盖多个学科领域。通过在该基准上评估LLM的性能,可以更准确地了解LLM在土耳其语理解方面的优势和不足。这样设计的目的是为了提供一个更可靠、更具文化敏感性的评估工具,从而推动土耳其语LLM的发展。

技术框架:TurkishMMLU基准的构建流程主要包括以下几个阶段: 1. 科目选择:选择土耳其高中课程中的9个科目,包括自然科学、数学、社会科学和人文科学等。 2. 题目编写:邀请土耳其语课程专家编写多项选择题,确保题目内容符合课程标准,并具有一定的难度和区分度。 3. 题目审核:对编写的题目进行审核,确保题目的准确性、清晰度和文化敏感性。 4. 数据集构建:将审核通过的题目整理成数据集,并进行标注和分类。 5. 模型评估:使用TurkishMMLU基准评估多个LLM的性能,并进行分析和比较。

关键创新:该论文的关键创新在于构建了首个专门针对土耳其语的多任务选择题基准TurkishMMLU。与以往依赖翻译的评估方法相比,TurkishMMLU能够更准确地评估LLM在土耳其语环境下的理解能力。此外,该基准的题目内容贴合土耳其高中课程,能够更好地反映LLM在土耳其教育体系中的应用潜力。该基准的构建过程也充分考虑了文化敏感性,避免了引入不必要的偏见。

关键设计:TurkishMMLU包含超过10,000个问题,涵盖9个科目。每个问题包含一个题干和四个选项,其中只有一个选项是正确的。论文采用了零样本和少样本两种评估方式。在少样本评估中,为每个模型提供少量的示例问题和答案,以帮助模型更好地理解题目的要求。论文还采用了思维链(Chain-of-Thought)推理方法,鼓励模型逐步推导答案,以提高模型的推理能力。此外,论文还对问题的难度进行了分析,并将其与模型性能进行了关联分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文评估了20多个LLM在TurkishMMLU上的表现,包括开源和闭源模型。评估结果表明,现有LLM在土耳其语理解方面仍存在一定的局限性。例如,某些模型在自然科学和数学科目上表现较好,但在人文和社会科学科目上表现较差。此外,论文还发现,思维链推理方法可以显著提高某些模型的性能。具体性能数据未知,但论文强调了对模型在不同科目上的表现进行了详细分析。

🎯 应用场景

TurkishMMLU基准的潜在应用领域包括:评估和改进土耳其语LLM,开发土耳其语教育应用,提高机器翻译质量,以及促进土耳其语自然语言处理技术的发展。该基准的实际价值在于提供了一个可靠的评估工具,可以帮助研究人员和开发者更好地了解LLM在土耳其语环境下的能力。未来,TurkishMMLU可以作为土耳其语LLM研究的重要参考,推动该领域的发展。

📄 摘要(原文)

Multiple choice question answering tasks evaluate the reasoning, comprehension, and mathematical abilities of Large Language Models (LLMs). While existing benchmarks employ automatic translation for multilingual evaluation, this approach is error-prone and potentially introduces culturally biased questions, especially in social sciences. We introduce the first multitask, multiple-choice Turkish QA benchmark, TurkishMMLU, to evaluate LLMs' understanding of the Turkish language. TurkishMMLU includes over 10,000 questions, covering 9 different subjects from Turkish high-school education curricula. These questions are written by curriculum experts, suitable for the high-school curricula in Turkey, covering subjects ranging from natural sciences and math questions to more culturally representative topics such as Turkish Literature and the history of the Turkish Republic. We evaluate over 20 LLMs, including multilingual open-source (e.g., Gemma, Llama, MT5), closed-source (GPT 4o, Claude, Gemini), and Turkish-adapted (e.g., Trendyol) models. We provide an extensive evaluation, including zero-shot and few-shot evaluation of LLMs, chain-of-thought reasoning, and question difficulty analysis along with model performance. We provide an in-depth analysis of the Turkish capabilities and limitations of current LLMs to provide insights for future LLMs for the Turkish language. We publicly release our code for the dataset and evaluation: https://github.com/ArdaYueksel/TurkishMMLU.