DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models
作者: Malik H. Altakrori, Nizar Habash, Abdelhakim Freihat, Younes Samih, Kirill Chirkunov, Muhammed AbuOdeh, Radu Florian, Teresa Lynn, Preslav Nakov, Alham Fikri Aji
分类: cs.CL, cs.AI
发布日期: 2025-10-31
备注: 9 pages, 9 tables
💡 一句话要点
DialectalArabicMMLU:构建阿拉伯语方言能力评测基准,评估LLM的方言理解能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语方言 大型语言模型 评测基准 自然语言处理 多语种模型
📋 核心要点
- 现有阿拉伯语评测基准主要集中于现代标准阿拉伯语,忽略了广泛使用的阿拉伯语方言。
- DialectalArabicMMLU通过人工翻译和改编,构建了包含五种主要方言的多选题基准。
- 实验结果表明,现有LLM在不同方言上的性能差异显著,方言泛化能力仍有提升空间。
📝 摘要(中文)
本文提出了DialectalArabicMMLU,一个新的基准,用于评估大型语言模型(LLM)在不同阿拉伯语方言上的性能。虽然最近开发的阿拉伯语和多语种基准已经推动了LLM对现代标准阿拉伯语(MSA)的评估,但方言变体在日常交流中普遍存在,却仍然没有得到充分的代表。DialectalArabicMMLU通过手动翻译和改编3K多项选择题-答案对到五个主要方言(叙利亚、埃及、阿联酋、沙特和摩洛哥),扩展了MMLU-Redux框架,从而在32个学术和专业领域产生了总共15K个QA对(当也包括英语和MSA时,为22K个QA对)。该基准支持基于任务和语言分析,能够系统地评估LLM在MSA之外的推理和理解能力。我们评估了19个开放权重的阿拉伯语和多语种LLM(1B-13B参数),并报告了不同方言之间的显著性能差异,揭示了方言泛化方面持续存在的差距。DialectalArabicMMLU提供了第一个统一的、人工策划的资源,用于衡量阿拉伯语中的方言理解,从而促进更具包容性的评估和未来的模型开发。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在理解和处理阿拉伯语方言方面能力不足的问题。现有的阿拉伯语评测基准主要集中于现代标准阿拉伯语(MSA),而忽略了阿拉伯语方言在日常交流中的广泛使用。这导致LLM在实际应用中,尤其是在处理口语化、地域化的阿拉伯语文本时,表现不佳。
核心思路:论文的核心思路是通过构建一个包含多种阿拉伯语方言的评测基准,来系统地评估LLM在方言理解方面的能力。该基准通过人工翻译和改编现有的MMLU-Redux数据集,使其覆盖五种主要的阿拉伯语方言,从而为LLM的方言理解能力提供更全面的评估。
技术框架:DialectalArabicMMLU的构建主要包含以下几个阶段:1) 选择MMLU-Redux数据集作为基础;2) 将数据集中的问题和答案对人工翻译和改编成五种主要的阿拉伯语方言(叙利亚、埃及、阿联酋、沙特和摩洛哥);3) 对翻译和改编后的数据进行质量控制,确保其准确性和一致性;4) 构建最终的DialectalArabicMMLU基准,包含32个学术和专业领域,总共15K个QA对(包括英语和MSA时为22K个QA对)。
关键创新:DialectalArabicMMLU的关键创新在于它是第一个统一的、人工策划的资源,用于衡量阿拉伯语中的方言理解。与以往主要关注MSA的基准相比,DialectalArabicMMLU更贴近实际应用场景,能够更准确地反映LLM在处理真实世界阿拉伯语文本时的能力。
关键设计:DialectalArabicMMLU的关键设计包括:1) 选择MMLU-Redux作为基础,保证了基准的覆盖范围和难度;2) 采用人工翻译和改编的方式,确保了方言数据的质量和地道性;3) 覆盖五种主要的阿拉伯语方言,使其具有一定的代表性;4) 包含32个学术和专业领域,使其能够评估LLM在不同领域的方言理解能力。
📊 实验亮点
研究者使用DialectalArabicMMLU评估了19个开放权重的阿拉伯语和多语种LLM(1B-13B参数),结果显示不同方言之间的性能差异显著,表明现有模型在方言泛化方面存在不足。具体性能数据未在摘要中给出,但强调了该基准揭示了LLM在不同方言理解上的差距。
🎯 应用场景
该研究成果可应用于提升阿拉伯语自然语言处理模型的实际应用效果,尤其是在处理社交媒体、客户服务、语音识别等场景下的阿拉伯语方言文本。通过使用DialectalArabicMMLU基准进行模型评估和训练,可以开发出更适应阿拉伯语方言的智能应用,例如方言语音助手、方言文本翻译等,从而更好地服务于阿拉伯语使用者。
📄 摘要(原文)
We present DialectalArabicMMLU, a new benchmark for evaluating the performance of large language models (LLMs) across Arabic dialects. While recently developed Arabic and multilingual benchmarks have advanced LLM evaluation for Modern Standard Arabic (MSA), dialectal varieties remain underrepresented despite their prevalence in everyday communication. DialectalArabicMMLU extends the MMLU-Redux framework through manual translation and adaptation of 3K multiple-choice question-answer pairs into five major dialects (Syrian, Egyptian, Emirati, Saudi, and Moroccan), yielding a total of 15K QA pairs across 32 academic and professional domains (22K QA pairs when also including English and MSA). The benchmark enables systematic assessment of LLM reasoning and comprehension beyond MSA, supporting both task-based and linguistic analysis. We evaluate 19 open-weight Arabic and multilingual LLMs (1B-13B parameters) and report substantial performance variation across dialects, revealing persistent gaps in dialectal generalization. DialectalArabicMMLU provides the first unified, human-curated resource for measuring dialectal understanding in Arabic, thus promoting more inclusive evaluation and future model development.