Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings

作者: Krishno Dey, Prerona Tarannum, Md. Arid Hasan, Imran Razzak, Usman Naseem

分类: cs.CL

发布日期: 2024-10-17

💡 一句话要点

评估大语言模型在英语和低资源语言上的性能差异，揭示跨语言应用挑战

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 低资源语言 跨语言评估 零样本学习 提示工程

📋 核心要点

现有大型语言模型在低资源语言上的性能评估不足，尤其是在南亚常用语言上的表现有待考察。
该研究通过零样本提示和跨语言翻译提示，对比评估了GPT-4、Llama 2和Gemini在英语和低资源语言上的性能。
实验结果表明，GPT-4在所有语言和提示设置中表现最佳，且所有模型在英语上的表现均优于低资源语言。

📝 摘要（中文）

大型语言模型（LLMs）在海量数据上训练，使其能够应用于不同的领域和任务。尽管它们表现出色，但大多数LLM主要是在英语中开发和评估的。最近，出现了一些多语言LLM，但它们在低资源语言（特别是南亚使用最多的语言）中的表现却鲜有研究。为了弥补这一差距，本研究评估了GPT-4、Llama 2和Gemini等LLM，以分析它们在英语与南亚其他低资源语言（如孟加拉语、印地语和乌尔都语）相比的有效性。具体来说，我们利用零样本提示和五种不同的提示设置，广泛地研究了LLM在跨语言翻译提示中的有效性。研究结果表明，GPT-4在所有五种提示设置和所有语言中均优于Llama 2和Gemini。此外，所有三个LLM在英语提示上的表现都优于其他低资源语言提示。本研究广泛地调查了LLM在低资源语言环境中的表现，旨在强调LLM和特定语言资源需要改进的地方，以开发更通用的NLP应用。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在低资源语言环境下的性能评估问题。现有LLMs主要在英语环境下开发和评估，对于南亚等地区的低资源语言支持不足，导致其在这些语言上的应用效果不佳。因此，需要系统地评估LLMs在低资源语言上的表现，并找出改进的方向。

核心思路：论文的核心思路是通过对比LLMs在英语和低资源语言上的性能，来揭示其在跨语言应用中的挑战。具体而言，通过将相同的任务以英语和低资源语言（如孟加拉语、印地语和乌尔都语）进行提示，然后比较LLMs的输出结果，从而评估其在不同语言环境下的表现。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择待评估的LLMs，包括GPT-4、Llama 2和Gemini；2) 选择需要评估的低资源语言，包括孟加拉语、印地语和乌尔都语；3) 设计不同的提示设置，包括零样本提示和跨语言翻译提示；4) 使用不同的提示设置，对LLMs进行评估，并记录其输出结果；5) 对LLMs的输出结果进行分析，比较其在不同语言环境下的表现。

关键创新：该研究的关键创新在于系统地评估了LLMs在低资源语言环境下的性能，并揭示了其在跨语言应用中的挑战。此外，该研究还使用了多种提示设置，包括零样本提示和跨语言翻译提示，从而更全面地评估了LLMs的性能。

关键设计：该研究的关键设计包括：1) 使用零样本提示，以评估LLMs在没有特定训练数据的情况下，对低资源语言的理解能力；2) 使用跨语言翻译提示，以评估LLMs在处理翻译后的文本时的性能；3) 使用五种不同的提示设置，以更全面地评估LLMs的性能；4) 对LLMs的输出结果进行人工评估，以确保评估结果的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4在所有五种提示设置和所有语言中均优于Llama 2和Gemini。此外，所有三个LLM在英语提示上的表现都优于其他低资源语言提示，这表明LLM在低资源语言上的性能仍有很大的提升空间。具体性能数据未知。

🎯 应用场景

该研究的成果可应用于改进多语言LLM的开发，使其更好地支持低资源语言。这对于促进全球范围内的信息交流和知识共享具有重要意义。此外，该研究还可以帮助开发者更好地了解LLM在不同语言环境下的表现，从而开发出更适合特定语言环境的NLP应用。

📄 摘要（原文）

Large Language Models (LLMs) are trained on massive amounts of data, enabling their application across diverse domains and tasks. Despite their remarkable performance, most LLMs are developed and evaluated primarily in English. Recently, a few multi-lingual LLMs have emerged, but their performance in low-resource languages, especially the most spoken languages in South Asia, is less explored. To address this gap, in this study, we evaluate LLMs such as GPT-4, Llama 2, and Gemini to analyze their effectiveness in English compared to other low-resource languages from South Asia (e.g., Bangla, Hindi, and Urdu). Specifically, we utilized zero-shot prompting and five different prompt settings to extensively investigate the effectiveness of the LLMs in cross-lingual translated prompts. The findings of the study suggest that GPT-4 outperformed Llama 2 and Gemini in all five prompt settings and across all languages. Moreover, all three LLMs performed better for English language prompts than other low-resource language prompts. This study extensively investigates LLMs in low-resource language contexts to highlight the improvements required in LLMs and language-specific resources to develop more generally purposed NLP applications.

Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理