Multilingual Large Language Models do not comprehend all natural languages to equal degrees
作者: Natalia Moskvina, Raquel Montero, Masaya Yoshida, Ferdy Hubers, Paolo Morosi, Walid Irhaymi, Jin Yan, Tamara Serrano, Elena Pagliarini, Fritz Günther, Evelina Leivada
分类: cs.CL, cs.AI
发布日期: 2026-02-23
备注: 36 pages, 3 figures, 2 tables, 4 supplementary tables
💡 一句话要点
揭示多语言大模型对不同自然语言理解能力差异,挑战英语最佳表现的预设
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 语言理解 低资源语言 语言评估 大语言模型
📋 核心要点
- 现有LLM评估主要集中在高资源语言,忽略了对低资源语言理解能力的考察,导致对模型真实能力的评估存在偏差。
- 该研究通过在多种语言上进行语言理解任务测试,旨在揭示LLM在不同语言上的理解能力差异。
- 实验结果表明,英语并非LLM表现最佳的语言,部分罗曼语族语言的表现优于英语,挑战了以往的认知。
📝 摘要(中文)
大型语言模型(LLM)在人类获取信息方面扮演着关键角色。虽然其核心用途依赖于理解书面请求,但我们对这种能力的理解目前有限,因为大多数基准测试主要在高资源语言(主要由西方、受过教育、工业化、富裕和民主(WEIRD)社区使用)中评估LLM。默认假设是英语是LLM表现最佳的语言,而较小、低资源语言与不太可靠的输出相关联,即使在多语言、最先进的模型中也是如此。为了跟踪LLM理解能力的差异,我们提示3个流行的模型在12种语言(代表印欧语系、亚非语系、突厥语系、汉藏语系和日语系)上完成语言理解任务。我们的结果表明,这些模型在类型学上不同的语言中表现出卓越的语言准确性,但在所有语言中都落后于人类基线,尽管程度不同。与预期相反,英语不是表现最佳的语言,因为它系统地被几种罗曼语族语言超越,即使是资源较低的语言。我们通过讨论驱动LLM性能的几个因素来构建结果,例如分词、与西班牙语和英语的语言距离、训练数据的大小以及高资源与低资源语言以及WEIRD与非WEIRD社区中的数据来源。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)的评估主要集中在高资源语言上,缺乏对低资源语言的全面评估。这导致我们对LLM在不同语言上的理解能力存在认知偏差,默认认为英语是最佳表现语言。然而,这种假设可能并不成立,需要更广泛的语言测试来验证。现有方法的痛点在于无法准确衡量LLM在各种语言环境下的真实理解能力。
核心思路:该研究的核心思路是通过在多种语言上进行语言理解任务测试,来揭示LLM在不同语言上的理解能力差异。通过对比LLM在不同语言上的表现,可以更全面地了解LLM的优势和局限性,从而挑战英语最佳表现的预设。这种方法强调了语言多样性的重要性,并试图打破以英语为中心的评估框架。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择3个流行的LLM模型进行测试。2) 选择12种代表不同语系的语言,包括印欧语系、亚非语系、突厥语系、汉藏语系和日语系。3) 设计语言理解任务,并使用选定的语言对LLM进行提示。4) 评估LLM在不同语言上的表现,并与人类基线进行比较。5) 分析影响LLM性能的因素,如分词、语言距离、训练数据大小和数据来源。
关键创新:该研究的关键创新在于其对LLM在多种语言上的理解能力进行了系统性的评估,并挑战了英语最佳表现的预设。与以往的研究不同,该研究关注了低资源语言的表现,并揭示了LLM在不同语言上的理解能力差异。此外,该研究还分析了影响LLM性能的多种因素,为未来的研究提供了有价值的参考。
关键设计:该研究的关键设计包括:1) 选择了具有代表性的12种语言,覆盖了不同的语系和资源水平。2) 设计了语言理解任务,旨在评估LLM对语言的深层理解能力。3) 使用了3个流行的LLM模型,以确保结果的可靠性和泛化性。4) 考虑了多种影响LLM性能的因素,如分词、语言距离、训练数据大小和数据来源。
📊 实验亮点
实验结果表明,LLM在类型学上不同的语言中表现出卓越的语言准确性,但在所有语言中都落后于人类基线。值得注意的是,英语并非LLM表现最佳的语言,而是被几种罗曼语族语言超越,即使是资源较低的语言。这挑战了以往的认知,并表明LLM在不同语言上的理解能力存在显著差异。
🎯 应用场景
该研究的成果可应用于改进多语言LLM的设计和训练,使其更好地理解和处理各种语言。此外,该研究还可以帮助开发更公平、更包容的AI系统,避免对某些语言或文化群体的歧视。未来的研究可以进一步探索影响LLM性能的因素,并开发更有效的跨语言迁移学习方法。
📄 摘要(原文)
Large Language Models (LLMs) play a critical role in how humans access information. While their core use relies on comprehending written requests, our understanding of this ability is currently limited, because most benchmarks evaluate LLMs in high-resource languages predominantly spoken by Western, Educated, Industrialised, Rich, and Democratic (WEIRD) communities. The default assumption is that English is the best-performing language for LLMs, while smaller, low-resource languages are linked to less reliable outputs, even in multilingual, state-of-the-art models. To track variation in the comprehension abilities of LLMs, we prompt 3 popular models on a language comprehension task across 12 languages, representing the Indo-European, Afro-Asiatic, Turkic, Sino-Tibetan, and Japonic language families. Our results suggest that the models exhibit remarkable linguistic accuracy across typologically diverse languages, yet they fall behind human baselines in all of them, albeit to different degrees. Contrary to what was expected, English is not the best-performing language, as it was systematically outperformed by several Romance languages, even lower-resource ones. We frame the results by discussing the role of several factors that drive LLM performance, such as tokenization, language distance from Spanish and English, size of training data, and data origin in high- vs. low-resource languages and WEIRD vs. non-WEIRD communities.