NusaAksara: A Multimodal and Multilingual Benchmark for Preserving Indonesian Indigenous Scripts

📄 arXiv: 2502.18148v1 📥 PDF

作者: Muhammad Farid Adilazuarda, Musa Izzanardi Wijanarko, Lucky Susanto, Khumaisa Nur'aini, Derry Wijaya, Alham Fikri Aji

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-25

DOI: 10.18653/v1/2025.acl-long.1377


💡 一句话要点

NusaAksara:印尼本土文字保护的多模态多语言基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 印尼语 本土文字 多模态学习 基准数据集 低资源语言

📋 核心要点

  1. 现有NLP技术主要基于罗马化文本,忽略了印尼丰富的本土语言和文字,导致相关技术发展滞后。
  2. NusaAksara通过构建包含文本和图像模态的综合基准数据集,涵盖多种任务和低资源语言,旨在促进印尼本土文字的处理。
  3. 实验表明,现有LLM、VLM和特定任务系统在NusaAksara数据集上的表现不佳,突显了该基准的价值和挑战。

📝 摘要(中文)

本文提出了NusaAksara,一个新颖的印尼语言公开基准数据集,该数据集包含印尼本土文字。该基准涵盖文本和图像两种模态,包含图像分割、OCR、音译、翻译和语言识别等多种任务。数据集由人工专家通过严格的步骤构建。NusaAksara覆盖7种语言的8种文字,包括NLP基准中不常见的低资源语言。尽管Unicode不支持,但该数据集包含了Lampung文字。我们使用GPT-4o、Llama 3.2和Aya 23等LLM和VLM,以及PP-OCR和LangID等特定任务系统对数据进行了基准测试,结果表明大多数NLP技术无法处理印尼的本土文字,许多模型的性能接近于零。

🔬 方法详解

问题定义:现有NLP技术对印尼本土文字的支持不足,阻碍了印尼语言技术的发展。现有方法主要集中于罗马化文本,忽略了印尼丰富的本土文字,导致相关任务(如OCR、翻译等)的性能低下。缺乏高质量的、包含多种印尼本土文字的数据集是主要痛点。

核心思路:NusaAksara的核心思路是构建一个多模态、多语言的基准数据集,涵盖多种印尼本土文字,并包含多种NLP任务。通过提供高质量的数据和明确的任务定义,促进相关算法的开发和评估,从而提升印尼本土文字的处理能力。

技术框架:NusaAksara数据集的构建流程包括以下几个主要阶段: 1. 数据收集:收集包含印尼本土文字的文本和图像数据。 2. 数据标注:由人工专家对数据进行标注,包括文字识别、图像分割、语言识别等。 3. 任务定义:定义一系列NLP任务,如OCR、音译、翻译和语言识别。 4. 基准测试:使用现有的NLP模型对数据集进行基准测试,评估其性能。

关键创新:NusaAksara的关键创新在于: 1. 多模态和多语言:同时包含文本和图像模态,覆盖多种印尼本土文字和语言。 2. 低资源语言支持:包含NLP基准中不常见的低资源语言。 3. 包含未被Unicode支持的文字:例如,Lampung文字。 与现有数据集相比,NusaAksara更全面地覆盖了印尼本土文字,并提供了更丰富的任务类型。

关键设计:数据集的构建过程中,人工专家参与了数据标注和验证,保证了数据的质量。针对不同的任务,采用了不同的评估指标。例如,OCR任务使用字符错误率(CER)进行评估,翻译任务使用BLEU评分进行评估。论文中没有详细说明具体的参数设置、损失函数和网络结构,因为其重点在于数据集的构建和基准测试,而不是提出新的算法。

📊 实验亮点

实验结果表明,现有的LLM(如GPT-4o、Llama 3.2)和VLM(如Aya 23)以及特定任务系统(如PP-OCR和LangID)在NusaAksara数据集上的表现普遍较差,许多模型的性能接近于零。这突显了现有NLP技术在处理印尼本土文字方面的不足,并强调了NusaAksara数据集的重要性。

🎯 应用场景

NusaAksara数据集可应用于开发印尼本土文字的OCR系统、机器翻译系统、语言识别系统等。该数据集有助于保护和传承印尼的文化遗产,促进印尼语言技术的发展,并为低资源语言的NLP研究提供支持。未来,可以利用该数据集开发更多针对印尼本土文字的应用,例如文化旅游、教育等。

📄 摘要(原文)

Indonesia is rich in languages and scripts. However, most NLP progress has been made using romanized text. In this paper, we present NusaAksara, a novel public benchmark for Indonesian languages that includes their original scripts. Our benchmark covers both text and image modalities and encompasses diverse tasks such as image segmentation, OCR, transliteration, translation, and language identification. Our data is constructed by human experts through rigorous steps. NusaAksara covers 8 scripts across 7 languages, including low-resource languages not commonly seen in NLP benchmarks. Although unsupported by Unicode, the Lampung script is included in this dataset. We benchmark our data across several models, from LLMs and VLMs such as GPT-4o, Llama 3.2, and Aya 23 to task-specific systems such as PP-OCR and LangID, and show that most NLP technologies cannot handle Indonesia's local scripts, with many achieving near-zero performance.