IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

作者: David Ifeoluwa Adelani, Jessica Ojo, Israel Abebe Azime, Jian Yun Zhuang, Jesujoba O. Alabi, Xuanli He, Millicent Ochieng, Sara Hooker, Andiswa Bukula, En-Shiun Annie Lee, Chiamaka Chukwuneke, Happy Buzaaba, Blessing Sibanda, Godson Kalipe, Jonathan Mukiibi, Salomon Kabongo, Foutse Yuehgoh, Mmasibidi Setaka, Lolwethu Ndolela, Nkiruka Odu, Rooweither Mabuya, Shamsuddeen Hassan Muhammad, Salomey Osei, Sokhar Samb, Tadesse Kebede Guge, Tombekai Vangoni Sherman, Pontus Stenetorp

分类: cs.CL, cs.AI

发布日期: 2024-06-05 (更新: 2025-01-23)

备注: Accepted to NAACL 2025 (main conference)

💡 一句话要点

IrokoBench：面向非洲语言的大语言模型评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 非洲语言 低资源语言 大语言模型 评测基准 自然语言推理

📋 核心要点

现有大语言模型在非洲等低资源语言上的能力不足，缺乏针对这些语言的全面评测基准。
IrokoBench提供了一个人工翻译的、涵盖多种任务的非洲语言评测基准，用于评估LLM在这些语言上的性能。
实验表明，现有LLM在非洲语言上的表现与高资源语言存在显著差距，开源模型与专有模型之间也存在差距。

📝 摘要（中文）

尽管大型语言模型（LLMs）已被广泛采用，但其卓越能力仍然局限于少数高资源语言。此外，由于缺乏高资源语言之外的适当或全面的基准，许多低资源语言（如非洲语言）通常仅在基本的文本分类任务上进行评估。本文介绍了IrokoBench——一个人工翻译的基准数据集，用于17种类型多样的低资源非洲语言，涵盖三个任务：自然语言推理（AfriXNLI）、数学推理（AfriMGSM）和多项选择知识问答（AfriMMLU）。我们使用IrokoBench来评估10个开源和6个专有LLM在零样本、少样本和翻译-测试设置（其中测试集被翻译成英语）下的性能。我们的评估揭示了高资源语言（如英语和法语）与低资源非洲语言之间存在显著的性能差距。我们观察到开源模型和专有模型之间存在显著的性能差距，性能最佳的开源模型Gemma 2 27B仅达到性能最佳的专有模型GPT-4o的63%。此外，在评估之前将测试集机器翻译成英语有助于缩小以英语为中心的较大模型的差距，例如Gemma 2 27B和LLaMa 3.1 70B。这些发现表明，需要更多努力来开发和调整LLM以适应非洲语言。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在非洲低资源语言上性能评估不足的问题。现有方法主要集中在高资源语言上，缺乏针对非洲语言的全面、多任务的评测基准，导致无法准确评估LLMs在这些语言上的真实能力。现有方法无法有效衡量LLM在非洲语言上的推理、数学和知识问答能力。

核心思路：论文的核心思路是构建一个高质量、人工翻译的非洲语言评测基准IrokoBench，涵盖自然语言推理、数学推理和知识问答三个任务。通过在IrokoBench上评估各种LLMs，可以更准确地了解它们在非洲语言上的性能，并为未来的模型开发提供指导。人工翻译保证了数据的质量和可靠性。

技术框架：IrokoBench的构建流程主要包括以下几个阶段：1) 选择17种类型多样的非洲低资源语言；2) 针对自然语言推理（AfriXNLI）、数学推理（AfriMGSM）和多项选择知识问答（AfriMMLU）三个任务，收集并人工翻译数据集；3) 使用IrokoBench评估10个开源和6个专有LLMs在零样本、少样本和翻译-测试设置下的性能。翻译-测试设置是指将测试集翻译成英语后再进行评估。

关键创新：IrokoBench的主要创新在于：1) 它是首个专门针对非洲低资源语言的多任务评测基准，填补了该领域的空白；2) 数据集采用人工翻译，保证了数据的质量和可靠性；3) 涵盖了自然语言推理、数学推理和知识问答三个任务，可以全面评估LLMs在非洲语言上的能力。

关键设计：IrokoBench包含AfriXNLI、AfriMGSM和AfriMMLU三个子数据集，分别对应自然语言推理、数学推理和知识问答任务。具体的数据集大小和划分比例未知。评估指标的选择取决于具体的任务类型，例如，自然语言推理可能使用准确率，数学推理可能使用答案的精确匹配率，知识问答可能使用多项选择题的正确率。论文中没有明确提及损失函数和网络结构等技术细节，因为重点在于数据集的构建和评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在非洲语言上的表现与高资源语言存在显著差距，开源模型与专有模型之间也存在差距。性能最佳的开源模型Gemma 2 27B仅达到性能最佳的专有模型GPT-4o的63%。将测试集翻译成英语后再进行评估，可以缩小部分模型的性能差距，例如Gemma 2 27B和LLaMa 3.1 70B。

🎯 应用场景

该研究成果可应用于提升大语言模型在非洲语言上的性能，促进非洲语言的数字化发展。IrokoBench可作为评估和改进LLM在非洲语言上表现的标准基准，推动开发更适应非洲语言特点的模型。这有助于在教育、医疗、政务等领域实现更有效的本地化应用，促进非洲地区的科技发展和文化传承。

📄 摘要（原文）

Despite the widespread adoption of Large language models (LLMs), their remarkable capabilities remain limited to a few high-resource languages. Additionally, many low-resource languages (\eg African languages) are often evaluated only on basic text classification tasks due to the lack of appropriate or comprehensive benchmarks outside of high-resource languages. In this paper, we introduce IrokoBench -- a human-translated benchmark dataset for 17 typologically-diverse low-resource African languages covering three tasks: natural language inference~(AfriXNLI), mathematical reasoning~(AfriMGSM), and multi-choice knowledge-based question answering~(AfriMMLU). We use IrokoBench to evaluate zero-shot, few-shot, and translate-test settings~(where test sets are translated into English) across 10 open and six proprietary LLMs. Our evaluation reveals a significant performance gap between high-resource languages~(such as English and French) and low-resource African languages. We observe a significant performance gap between open and proprietary models, with the highest performing open model, Gemma 2 27B only at 63\% of the best-performing proprietary model GPT-4o performance. In addition, machine translating the test set to English before evaluation helped to close the gap for larger models that are English-centric, such as Gemma 2 27B and LLaMa 3.1 70B. These findings suggest that more efforts are needed to develop and adapt LLMs for African languages.

IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理