MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs

📄 arXiv: 2507.17476v1 📥 PDF

作者: Alexander R. Fabbri, Diego Mares, Jorge Flores, Meher Mankikar, Ernesto Hernandez, Dean Lee, Bing Liu, Chen Xing

分类: cs.CL, cs.AI

发布日期: 2025-07-23


💡 一句话要点

MultiNRC:一个用于评估LLM多语言推理能力的具挑战性的原生基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言推理 大型语言模型 基准测试 文化推理 自然语言处理

📋 核心要点

  1. 现有方法依赖翻译的英文基准,无法真实反映LLM在不同文化和语言环境下的推理能力。
  2. MultiNRC构建了一个包含法语、西班牙语和中文的原生多语言推理基准,涵盖语言、文化和数学等多个方面。
  3. 实验结果表明,现有LLM在原生多语言推理方面表现不佳,且在不同推理任务上存在明显的优劣势。

📝 摘要(中文)

现有的大型语言模型(LLM)在英语推理基准上表现出快速的进步,但对LLM在不同语言和文化背景下的多语言推理能力的评估仍然有限。现有的多语言推理基准通常通过翻译现有的英语推理基准来构建,这使得这些基准偏向于具有英语语言/文化背景的推理问题。本文提出了多语言原生推理挑战(MultiNRC),该基准旨在评估LLM在法语、西班牙语和中文等1000多个由母语人士编写的、具有原生语言和文化背景的推理问题上的表现。MultiNRC涵盖四个核心推理类别:特定于语言的语言推理、文字游戏和谜语、文化/传统推理以及具有文化相关性的数学推理。对于文化/传统推理和具有文化相关性的数学推理,我们还提供了由精通英语的母语人士手动翻译的多语言问题的等效英语翻译。这组英语等效翻译可以对LLM在其他语言与英语中对相同推理问题的推理能力进行直接比较。我们系统地评估了当前14个领先的LLM(涵盖大多数LLM系列)在MultiNRC及其英语等效集上的表现。结果表明:(1)当前的LLM在原生多语言推理方面仍然表现不佳,在MultiNRC上没有一个得分超过50%;(2)LLM在处理语言、文化和逻辑推理任务时表现出明显的优势和劣势;(3)与原始语言相比,大多数模型在英语数学推理方面的表现明显更好(+ 10%),这表明在文化基础知识方面仍然存在挑战。

🔬 方法详解

问题定义:现有的大型语言模型在英语推理基准上取得了显著进展,但缺乏对它们在不同语言和文化背景下进行原生多语言推理能力的有效评估。现有的多语言推理基准通常通过翻译现有的英语推理基准来构建,这导致它们偏向于英语语言和文化背景,无法真实反映LLM在其他语言环境下的推理能力。因此,需要一个更具挑战性和代表性的原生多语言推理基准来评估LLM的真实能力。

核心思路:MultiNRC的核心思路是构建一个完全原生的多语言推理基准,避免使用翻译数据,从而消除英文偏见。该基准包含由母语人士编写的、具有特定语言和文化背景的推理问题,涵盖语言、文化、数学等多个方面。通过评估LLM在这些原生问题上的表现,可以更准确地了解它们在不同语言和文化环境下的推理能力。

技术框架:MultiNRC基准包含四个核心推理类别:1) 特定于语言的语言推理;2) 文字游戏和谜语;3) 文化/传统推理;4) 具有文化相关性的数学推理。对于文化/传统推理和具有文化相关性的数学推理,基准还提供了等效的英语翻译版本,以便直接比较LLM在不同语言下的推理能力。研究人员使用该基准评估了14个领先的LLM,并分析了它们在不同推理类别和语言上的表现。

关键创新:MultiNRC的关键创新在于其原生性和多语言性。它避免了使用翻译数据,而是直接使用由母语人士编写的、具有特定语言和文化背景的推理问题。这使得该基准能够更准确地评估LLM在不同语言和文化环境下的推理能力,并揭示它们在处理不同类型推理任务时的优势和劣势。

关键设计:MultiNRC的关键设计包括:1) 使用母语人士编写问题,确保问题的原生性和文化相关性;2) 涵盖多个推理类别,全面评估LLM的推理能力;3) 提供英语翻译版本,方便比较不同语言下的推理表现;4) 选择具有代表性的LLM进行评估,分析它们的优势和劣势。

📊 实验亮点

实验结果表明,当前LLM在MultiNRC上的表现普遍不佳,没有一个模型得分超过50%。此外,LLM在不同推理类别和语言上的表现存在显著差异,例如,在英语数学推理方面的表现明显优于原始语言。这些结果揭示了LLM在多语言推理方面仍然面临的挑战,并为未来的研究方向提供了启示。

🎯 应用场景

MultiNRC可用于评估和提升LLM在多语言环境下的推理能力,促进LLM在跨文化交流、机器翻译、多语言信息检索等领域的应用。该基准的构建和评估方法可以推广到其他语言和文化,为构建更通用和智能的LLM提供参考。

📄 摘要(原文)

Although recent Large Language Models (LLMs) have shown rapid improvement on reasoning benchmarks in English, the evaluation of such LLMs' multilingual reasoning capability across diverse languages and cultural contexts remains limited. Existing multilingual reasoning benchmarks are typically constructed by translating existing English reasoning benchmarks, biasing these benchmarks towards reasoning problems with context in English language/cultures. In this work, we introduce the Multilingual Native Reasoning Challenge (MultiNRC), a benchmark designed to assess LLMs on more than 1,000 native, linguistic and culturally grounded reasoning questions written by native speakers in French, Spanish, and Chinese. MultiNRC covers four core reasoning categories: language-specific linguistic reasoning, wordplay & riddles, cultural/tradition reasoning, and math reasoning with cultural relevance. For cultural/tradition reasoning and math reasoning with cultural relevance, we also provide English equivalent translations of the multilingual questions by manual translation from native speakers fluent in English. This set of English equivalents can provide a direct comparison of LLM reasoning capacity in other languages vs. English on the same reasoning questions. We systematically evaluate current 14 leading LLMs covering most LLM families on MultiNRC and its English equivalent set. The results show that (1) current LLMs are still not good at native multilingual reasoning, with none scoring above 50% on MultiNRC; (2) LLMs exhibit distinct strengths and weaknesses in handling linguistic, cultural, and logical reasoning tasks; (3) Most models perform substantially better in math reasoning in English compared to in original languages (+10%), indicating persistent challenges with culturally grounded knowledge.