MILU: A Multi-task Indic Language Understanding Benchmark

📄 arXiv: 2411.02538v3 📥 PDF

作者: Sshubam Verma, Mohammed Safi Ur Rahman Khan, Vishwajeet Kumar, Rudra Murthy, Jaydeep Sen

分类: cs.CL

发布日期: 2024-11-04 (更新: 2025-02-04)


💡 一句话要点

提出MILU:一个多任务印度语言理解基准,用于评估LLM在印度语言上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 印度语言理解 多任务学习 大型语言模型 文化评估 低资源语言

📋 核心要点

  1. 现有LLM基准主要集中于英语,缺乏对印度等低资源、语言多样性地区语言的有效评估。
  2. MILU基准通过涵盖11种印度语言的8个领域和41个主题,提供了一个全面的评估框架。
  3. 实验结果表明,现有LLM在MILU上表现不佳,尤其是在文化相关领域,突显了该基准的价值。

📝 摘要(中文)

本文提出了MILU,一个多任务印度语言理解基准,旨在解决大型语言模型(LLM)在低资源和语言多样性语言(特别是使用非拉丁文字的印度语言)上的评估难题。现有基准主要集中在英语上,忽略了对LLM在这些语言中能力的评估。MILU覆盖11种印度语言的8个领域和41个主题,反映了通用和文化相关的知识。该基准以印度为中心,包含来自区域和邦级考试的材料,涵盖当地历史、艺术、节日和法律等主题,以及科学和数学等标准科目。对42个LLM的评估表明,现有模型在MILU上表现不佳,GPT-4o的平均准确率最高,为74%。开放多语言模型优于特定语言微调模型,后者仅比随机基线略好。模型在高资源语言上的表现优于低资源语言。领域分析表明,模型在文化相关领域(如艺术与人文、法律与治理)的表现不如STEM等通用领域。据我们所知,MILU是首个专注于印度语言的基准,是全面文化评估的关键一步。所有代码、基准和工件均公开提供,以促进开放研究。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估基准主要集中在英语等高资源语言上,忽略了对低资源且语言多样的语言(如印度语言)的评估。这导致我们无法准确评估LLM在这些语言上的理解和生成能力,尤其是在文化背景知识方面。现有方法无法有效衡量LLM在处理印度特定知识和文化细微差别时的表现,阻碍了LLM在印度地区的实际应用。

核心思路:MILU的核心思路是构建一个以印度为中心的、多任务的语言理解基准,涵盖广泛的领域和主题,包括通用知识和文化特定知识。通过包含来自印度区域和邦级考试的材料,MILU能够更全面地评估LLM在处理印度语言和文化背景下的能力。这种设计旨在弥合现有基准的差距,并为LLM在印度语言上的发展提供更准确的评估标准。

技术框架:MILU基准包含以下主要组成部分:1) 数据收集:收集来自各种来源的数据,包括教科书、考试试卷、新闻文章等,涵盖8个领域和41个主题。2) 语言覆盖:支持11种印度语言,包括印地语、孟加拉语、泰米尔语等。3) 任务定义:定义多个语言理解任务,如问题回答、文本分类、命名实体识别等。4) 评估指标:使用准确率、F1值等指标评估LLM在各个任务上的表现。5) 基线模型:选择多个具有代表性的LLM作为基线模型进行评估,包括GPT-4o、多语言模型和特定语言微调模型。

关键创新:MILU的最重要的技术创新点在于其以印度为中心的设计和对文化特定知识的关注。与现有基准相比,MILU更全面地覆盖了印度语言和文化,能够更准确地评估LLM在处理印度特定知识和文化细微差别时的能力。此外,MILU还提供了多种语言理解任务和评估指标,为LLM的评估提供了更全面的视角。

关键设计:MILU的关键设计包括:1) 数据选择:选择具有代表性的数据,涵盖通用知识和文化特定知识。2) 任务设计:设计多种语言理解任务,以评估LLM的不同能力。3) 评估指标选择:选择合适的评估指标,以准确衡量LLM在各个任务上的表现。4) 模型选择:选择具有代表性的LLM作为基线模型进行评估。没有特别说明损失函数和网络结构等技术细节,因此这部分信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o在MILU上的平均准确率最高,为74%,但仍有提升空间。开放多语言模型优于特定语言微调模型,后者仅比随机基线略好。模型在高资源语言上的表现优于低资源语言。在领域方面,模型在文化相关领域(如艺术与人文、法律与治理)的表现不如STEM等通用领域。这些结果突显了现有LLM在处理印度语言和文化知识方面的局限性,并为未来的研究方向提供了指导。

🎯 应用场景

MILU基准的潜在应用领域包括:改进印度语言的LLM,提升机器翻译质量,开发更智能的教育系统,以及促进文化遗产的保护和传播。该研究的实际价值在于提供了一个评估LLM在印度语言上能力的标准化工具,从而推动相关技术的发展。未来,MILU可以扩展到更多印度语言和文化领域,并与其他基准相结合,形成更全面的评估体系。

📄 摘要(原文)

Evaluating Large Language Models (LLMs) in low-resource and linguistically diverse languages remains a significant challenge in NLP, particularly for languages using non-Latin scripts like those spoken in India. Existing benchmarks predominantly focus on English, leaving substantial gaps in assessing LLM capabilities in these languages. We introduce MILU, a Multi task Indic Language Understanding Benchmark, a comprehensive evaluation benchmark designed to address this gap. MILU spans 8 domains and 41 subjects across 11 Indic languages, reflecting both general and culturally specific knowledge. With an India-centric design, incorporates material from regional and state-level examinations, covering topics such as local history, arts, festivals, and laws, alongside standard subjects like science and mathematics. We evaluate over 42 LLMs, and find that current LLMs struggle with MILU, with GPT-4o achieving the highest average accuracy at 74 percent. Open multilingual models outperform language-specific fine-tuned models, which perform only slightly better than random baselines. Models also perform better in high resource languages as compared to low resource ones. Domain-wise analysis indicates that models perform poorly in culturally relevant areas like Arts and Humanities, Law and Governance compared to general fields like STEM. To the best of our knowledge, MILU is the first of its kind benchmark focused on Indic languages, serving as a crucial step towards comprehensive cultural evaluation. All code, benchmarks, and artifacts are publicly available to foster open research.