Multilingual LLMs Are Not Multilingual Thinkers: Evidence from Hindi Analogy Evaluation
作者: Ashray Gupta, Rohan Joseph, Sunny Rai
分类: cs.CL, cs.AI
发布日期: 2025-07-17 (更新: 2025-07-23)
💡 一句话要点
提出印地语类比测试集HATS,揭示多语言LLM在印地语推理能力上的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 类比推理 印地语 测试集 认知推理
📋 核心要点
- 现有LLM在印度语言推理能力评估不足,难以判断其跨语言泛化能力。
- 提出印地语类比测试集HATS,并结合认知理论设计Grounded Chain of Thought方法。
- 实验表明,即使是多语言LLM,使用英语提示的效果也优于印地语提示。
📝 摘要(中文)
类比测试能够评估模型推断概念间隐式关系的能力,是评估推理能力的关键基准。虽然大型语言模型(LLM)在英语推理方面得到了广泛评估,但它们在印度语言中的能力仍然研究不足,限制了我们对这些模型是否能跨语言泛化的理解。为了弥补这一差距,我们引入了一个新的印地语类比测试集(HATS),包含405道来自印度政府考试的多项选择题。我们使用各种提示策略对最先进的多语言LLM进行了基准测试,并引入了一种基于认知类比推理理论的Grounded Chain of Thought方法。这种方法提高了模型在印地语类比问题上的性能。实验表明,无论采用何种提示策略,模型在使用英语提示时表现最佳。我们的测试集解决了评估LLM在印地语推理能力方面关键资源的缺乏问题。
🔬 方法详解
问题定义:论文旨在解决多语言LLM在非英语语言,特别是印地语上的推理能力评估不足的问题。现有方法主要集中在英语推理评估,缺乏针对印度语言的类比推理测试集,无法有效衡量LLM在这些语言上的真实推理能力。现有方法也缺乏对LLM在不同语言提示下的性能差异的深入分析。
核心思路:论文的核心思路是构建一个高质量的印地语类比测试集(HATS),并结合认知科学的类比推理理论,设计一种Grounded Chain of Thought (CoT) 提示方法。通过对比不同提示策略(包括英语和印地语提示)下LLM在HATS上的表现,揭示多语言LLM在印地语推理能力上的局限性。
技术框架:整体框架包括以下几个主要阶段:1) 数据集构建:收集并整理来自印度政府考试的类比推理题,构建HATS数据集。2) 模型选择:选择当前最先进的多语言LLM作为评估对象。3) 提示策略设计:设计多种提示策略,包括标准提示、CoT提示和Grounded CoT提示,并分别使用英语和印地语进行提示。4) 实验评估:在HATS数据集上评估不同模型在不同提示策略下的性能。5) 结果分析:分析实验结果,比较不同提示策略和不同模型之间的性能差异,并探讨其原因。
关键创新:论文的关键创新点在于:1) 提出了HATS数据集,填补了印地语类比推理测试集的空白。2) 引入了Grounded CoT提示方法,该方法结合了认知科学的类比推理理论,能够更有效地引导LLM进行推理。3) 系统地比较了不同提示策略(包括英语和印地语提示)对LLM性能的影响,揭示了多语言LLM在印地语推理能力上的局限性。
关键设计:HATS数据集包含405道多项选择题,题目来源于印度政府考试,保证了题目的质量和难度。Grounded CoT提示方法通过引入类比推理的认知步骤(例如,结构映射、评估等),引导LLM逐步进行推理。实验中,使用了多种多语言LLM,并针对每种模型调整了提示策略,以获得最佳性能。论文还详细分析了不同提示策略下LLM的输出结果,以深入了解其推理过程。
📊 实验亮点
实验结果表明,即使是最先进的多语言LLM,在HATS数据集上的表现也远低于英语类比推理任务。更重要的是,无论采用何种提示策略,模型在使用英语提示时的表现都优于印地语提示,这表明这些模型可能并没有真正理解印地语的语义和推理规则。Grounded CoT方法在一定程度上提高了模型在印地语类比问题上的性能,但仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于评估和提升LLM在低资源语言上的推理能力,推动多语言LLM的公平性和可信度。HATS数据集可作为基准测试,促进相关算法的开发。此外,Grounded CoT方法为提升LLM在其他语言上的推理能力提供了借鉴,有助于开发更智能、更可靠的跨语言AI系统。
📄 摘要(原文)
Analogies test a model's ability to infer implicit relationships between concepts, making them a key benchmark for evaluating reasoning capabilities. While large language models (LLMs) are widely evaluated for reasoning in English, their abilities in Indic languages remain understudied, limiting our understanding of whether these models generalize across languages. To address this gap, we introduce a new Hindi Analogy Test Set (HATS), comprising 405 multiple-choice questions sourced from Indian government exams. We benchmark state-of-the-art multilingual LLMs using various prompting strategies and introduce a grounded Chain of Thought approach that leverages cognitive theories of analogical reasoning. This approach improves model performance on Hindi analogy questions. Our experiments show that models perform best with English prompts, irrespective of the prompting strategy. Our test set addresses the lack of a critical resource to evaluate LLM reasoning capabilities in Hindi.