Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages

📄 arXiv: 2504.20022v2 📥 PDF

作者: Pritika Rohera, Chaitrali Ginimav, Gayatri Sawant, Raviraj Joshi

分类: cs.CL, cs.LG

发布日期: 2025-04-28 (更新: 2025-09-14)


💡 一句话要点

评估多语言LLM在英语和低资源语言中的事实准确性,揭示英语提问更可靠

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 事实准确性 低资源语言 印度语 幻觉 IndicQuest 语言模型评估

📋 核心要点

  1. 现有LLM在低资源印度语等语言的事实准确性不足,尤其是在处理区域背景问题时。
  2. 通过对比LLM在英语和印度语问题上的表现,评估其在不同语言环境下的可靠性。
  3. 实验表明,即使是印度语背景的问题,LLM在英语环境下的表现也优于印度语环境,幻觉现象更少。

📝 摘要(中文)

多语言大型语言模型(LLM)在多种语言中表现出显著的有效性,尤其是在英语等高资源语言中。然而,它们在其他低资源语言(特别是印度语言)中的事实准确性仍有待研究。本研究通过比较GPT-4o、Gemma-2-9B、Gemma-2-2B和Llama-3.1-8B在英语和印度语言中的性能,评估了LLM的事实准确性。研究使用了IndicQuest数据集,该数据集包含英语和19种印度语言的问答对。通过用英语和相应的印度语翻译提出相同的问题,我们分析了这些模型在印度语区域背景问题中,使用印度语还是英语更可靠。研究结果表明,即使对于源于印度语背景的问题,LLM通常在英语中表现更好。值得注意的是,我们观察到以低资源印度语生成的回复中,幻觉现象的倾向更高,突显了当前LLM在多语言理解能力方面的挑战。

🔬 方法详解

问题定义:论文旨在评估多语言LLM在处理英语和低资源印度语问题时的事实准确性差异。现有方法在低资源语言上的表现不佳,尤其是在处理具有区域背景知识的问题时,容易产生幻觉,导致答案不准确。

核心思路:论文的核心思路是通过对比实验,分析LLM在英语和印度语环境下回答相同问题的表现差异。通过这种方式,可以揭示LLM在不同语言环境下的优势和劣势,从而更好地理解其多语言能力。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择多语言LLM模型,包括GPT-4o、Gemma-2-9B、Gemma-2-2B和Llama-3.1-8B;2) 使用IndicQuest数据集,该数据集包含英语和19种印度语言的问答对;3) 将相同的问题分别用英语和对应的印度语翻译后输入LLM;4) 分析LLM在不同语言环境下的回答,评估其事实准确性,并比较幻觉现象的发生率。

关键创新:论文的关键创新在于系统性地评估了多语言LLM在英语和多种低资源印度语上的事实准确性,并揭示了即使是印度语背景的问题,LLM在英语环境下的表现也优于印度语环境。这挑战了人们对多语言LLM在所有语言上都具有同等能力的假设。

关键设计:论文的关键设计包括:1) 使用IndicQuest数据集,该数据集覆盖了多种印度语言,保证了评估的全面性;2) 对比英语和印度语环境下LLM的回答,从而量化了不同语言环境下的性能差异;3) 关注幻觉现象的发生率,从而更深入地了解LLM在低资源语言上的局限性。没有特别提及损失函数和网络结构等细节,因为论文重点在于评估而非模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使对于源于印度语背景的问题,LLM通常在英语中表现更好。研究观察到,以低资源印度语生成的回复中,幻觉现象的倾向更高。例如,具体模型在英语环境下的准确率平均高于印度语环境X%,幻觉率降低Y%。这些数据突显了当前LLM在多语言理解能力方面的挑战。

🎯 应用场景

该研究成果可应用于改进多语言LLM在低资源语言上的性能,例如通过数据增强、迁移学习等方法提高其事实准确性。此外,该研究也为用户在使用多语言LLM时提供了参考,建议在处理特定区域背景问题时,优先使用英语提问,以获得更可靠的答案。未来可应用于开发更可靠的多语言信息检索和问答系统。

📄 摘要(原文)

Multilingual Large Language Models (LLMs) have demonstrated significant effectiveness across various languages, particularly in high-resource languages such as English. However, their performance in terms of factual accuracy across other low-resource languages, especially Indic languages, remains an area of investigation. In this study, we assess the factual accuracy of LLMs - GPT-4o, Gemma-2-9B, Gemma-2-2B, and Llama-3.1-8B - by comparing their performance in English and Indic languages using the IndicQuest dataset, which contains question-answer pairs in English and 19 Indic languages. By asking the same questions in English and their respective Indic translations, we analyze whether the models are more reliable for regional context questions in Indic languages or when operating in English. Our findings reveal that LLMs often perform better in English, even for questions rooted in Indic contexts. Notably, we observe a higher tendency for hallucination in responses generated in low-resource Indic languages, highlighting challenges in the multilingual understanding capabilities of current LLMs.