LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama

📄 arXiv: 2503.11911v2 📥 PDF

作者: Naome A. Etori, Kevin Lu, Randu Karisa, Arturs Kanepajs

分类: cs.CL

发布日期: 2025-03-14 (更新: 2025-03-18)

备注: Accepted at NoDaLiDa/Baltic-HLT 2025. https://hdl.handle.net/10062/107190

期刊: Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025) : Proceedings of the Conference: March 3-4, 2025


💡 一句话要点

LAG-MMLU:在拉脱维亚语和吉里亚玛语中评估前沿LLM的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 低资源语言 基准测试 多语言理解 文化情境化

📋 核心要点

  1. 现有LLM主要使用英语数据集评估推理能力,缺乏对低资源语言的有效评估。
  2. 论文通过构建拉脱维亚语和吉里亚玛语的MMLU子集,评估LLM在这些语言上的理解能力。
  3. 实验结果表明,OpenAI的o1模型在多种语言上表现最佳,但其他模型在低资源语言上表现较弱。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,评估其性能至关重要。LLMs在多语言数据上进行训练,但其推理能力主要使用英语数据集进行评估。因此,需要使用高质量的非英语数据集,特别是低资源语言(LRLs),来构建强大的评估框架。本研究使用由母语人士策划的、具有语言和文化相关性的海量多任务语言理解(MMLU)子集,评估了八个最先进的(SOTA)LLMs在拉脱维亚语和吉里亚玛语上的表现。吉里亚玛语是首次被用于基准测试。我们的评估表明,OpenAI的o1模型在所有语言中都优于其他模型,在零样本任务中,英语得分92.8%,拉脱维亚语得分88.8%,吉里亚玛语得分70.8%。Mistral-large(35.6%)和Llama-70B IT(41%)在拉脱维亚语和吉里亚玛语上的表现均较弱。我们的结果强调了在推进文化AI情境化过程中,对本地化基准和人工评估的需求。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在低资源语言理解能力评估不足的问题。现有方法主要依赖于英语数据集,无法准确反映LLM在其他语言和文化背景下的表现。这限制了LLM在多语言环境中的应用,并可能导致文化偏见。

核心思路:论文的核心思路是构建高质量的、本地化的基准数据集,以更准确地评估LLM在特定低资源语言上的理解能力。通过与母语人士合作,确保数据集的语言和文化相关性,从而提供更可靠的评估结果。

技术框架:论文采用海量多任务语言理解(MMLU)框架,并针对拉脱维亚语和吉里亚玛语进行了定制。具体流程包括:1) 选择MMLU任务子集;2) 与母语人士合作进行翻译和调整,确保语言和文化相关性;3) 使用定制的数据集评估多个SOTA LLM;4) 分析实验结果,比较不同模型在不同语言上的表现。

关键创新:论文的关键创新在于首次将MMLU基准测试扩展到吉里亚玛语,并为拉脱维亚语创建了高质量的MMLU子集。这为评估LLM在低资源语言上的理解能力提供了新的资源和方法。此外,论文强调了本地化基准和人工评估在推进文化AI情境化中的重要性。

关键设计:论文的关键设计包括:1) 数据集的选择和翻译过程,确保了语言的准确性和文化的相关性;2) 选择了多个SOTA LLM进行评估,包括OpenAI的o1模型、Mistral-large和Llama-70B IT等;3) 采用零样本学习设置,评估LLM在没有特定语言微调的情况下,对语言的理解能力。具体参数设置和损失函数取决于被评估的LLM的默认配置,论文重点在于数据集的构建和评估流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OpenAI的o1模型在英语、拉脱维亚语和吉里亚玛语上均表现出色,零样本任务得分分别为92.8%、88.8%和70.8%。相比之下,Mistral-large和Llama-70B IT在拉脱维亚语和吉里亚玛语上的表现相对较弱,分别为35.6%和41%。这突显了现有LLM在低资源语言理解方面仍有提升空间。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性和语言适应性的AI系统。通过使用本地化基准测试,可以更好地评估和改进LLM在不同语言和文化背景下的表现,从而促进AI技术在全球范围内的公平和包容性应用。此外,该研究也为其他低资源语言的基准测试提供了参考。

📄 摘要(原文)

As large language models (LLMs) rapidly advance, evaluating their performance is critical. LLMs are trained on multilingual data, but their reasoning abilities are mainly evaluated using English datasets. Hence, robust evaluation frameworks are needed using high-quality non-English datasets, especially low-resource languages (LRLs). This study evaluates eight state-of-the-art (SOTA) LLMs on Latvian and Giriama using a Massive Multitask Language Understanding (MMLU) subset curated with native speakers for linguistic and cultural relevance. Giriama is benchmarked for the first time. Our evaluation shows that OpenAI's o1 model outperforms others across all languages, scoring 92.8% in English, 88.8% in Latvian, and 70.8% in Giriama on 0-shot tasks. Mistral-large (35.6%) and Llama-70B IT (41%) have weak performance, on both Latvian and Giriama. Our results underscore the need for localized benchmarks and human evaluations in advancing cultural AI contextualization.