The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

📄 arXiv: 2603.29244v1 📥 PDF

作者: Hillary Mutisya, John Mugane, Gavin Nyamboga, Brian Chege, Maryruth Gathoni

分类: cs.CL, cs.LG

发布日期: 2026-03-31


💡 一句话要点

发布Thiomi数据集,一个面向低资源非洲语言的大规模多模态语料库。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非洲语言 多模态数据集 语音识别 机器翻译 语音合成 低资源语言 社区驱动 质量保证

📋 核心要点

  1. 非洲语言资源匮乏,阻碍了相关语音和语言技术的发展。
  2. 构建大规模多模态数据集,包含文本和语音数据,并建立质量保证流程。
  3. 在ASR、MT和TTS任务上验证数据集有效性,并在斯瓦希里语和索马里语ASR上取得显著性能提升。

📝 摘要(中文)

本文介绍了Thiomi数据集,这是一个大规模多模态语料库,涵盖了四个语系的十种非洲语言:斯瓦希里语、基库尤语、坎巴语、基梅鲁语、卢奥语、马赛语、基普西吉斯语、索马里语(东非);沃洛夫语(西非);以及富拉尼语(西/中非)。该数据集包含超过601,000个经过批准的句子级文本标注和超过385,000个跨越九种语言的音频记录,这些数据通过一个专门的社区数据收集平台收集,涉及100多名贡献者。Thiomi平台收集了九种语言的数据;斯瓦希里语数据通过现有的Common Voice录音进行补充。一个多层质量保证流程实现了六种主要语言86-100%的文本批准率。为了验证数据集的效用,我们训练并评估了ASR、MT和TTS模型,建立了所有十种语言的基线。我们最好的ASR系统在斯瓦希里语(Common Voice)上实现了3.24%的WER,将之前的学术SOTA从8.3%降低到3.24%(绝对降低5.1个百分点,相对降低61%),在索马里语上实现了4.3%的WER。该数据集将在HuggingFace上发布。我们描述了收集平台、质量保证工作流程和基线实验,并讨论了对非洲语言技术基础设施的影响。

🔬 方法详解

问题定义:现有非洲语言的语音和语言技术发展受限于高质量、大规模数据集的匮乏。缺乏充足的标注数据使得训练高性能的ASR、MT和TTS模型变得困难。现有方法难以有效支持这些低资源语言的建模和应用。

核心思路:通过社区驱动的数据收集平台,汇集大量非洲语言的文本和语音数据,并建立严格的质量保证流程,确保数据的准确性和可靠性。利用收集到的数据训练基线模型,验证数据集的有效性,并为后续研究提供基础。

技术框架:该研究包含数据收集平台、多层质量保证流程和基线模型训练三个主要阶段。数据收集平台用于收集文本和语音数据,质量保证流程用于审核和修正数据,基线模型训练用于验证数据集的有效性。具体流程包括:1) 通过Thiomi平台进行数据收集;2) 对收集到的数据进行多层质量审核,包括自动审核和人工审核;3) 使用审核后的数据训练ASR、MT和TTS模型。

关键创新:该研究的关键创新在于构建了一个大规模、高质量的非洲语言多模态数据集,并建立了一套有效的社区驱动的数据收集和质量保证流程。该数据集的规模和质量超越了现有资源,为非洲语言技术的发展提供了重要支撑。

关键设计:数据收集平台的设计注重用户友好性和易用性,降低了数据贡献的门槛。质量保证流程采用多层审核机制,包括自动审核和人工审核,确保数据的准确性和可靠性。基线模型训练采用常用的模型结构和训练方法,为后续研究提供参考。

📊 实验亮点

实验结果表明,使用Thiomi数据集训练的ASR模型在斯瓦希里语和索马里语上取得了显著的性能提升。在斯瓦希里语(Common Voice)上,WER从之前的学术SOTA 8.3%降低到3.24%(绝对降低5.1个百分点,相对降低61%),在索马里语上实现了4.3%的WER。这些结果验证了数据集的有效性,并为非洲语言ASR研究提供了新的基线。

🎯 应用场景

该研究成果可广泛应用于非洲语言的语音识别、机器翻译和语音合成等领域。例如,可以开发非洲语言的语音助手、自动翻译工具和语音合成系统,促进非洲语言的信息化和数字化,并为非洲地区的教育、文化交流和经济发展提供支持。未来,该数据集可以进一步扩展到更多非洲语言,并与其他资源结合,构建更完善的非洲语言技术生态系统。

📄 摘要(原文)

We present the Thiomi Dataset, a large-scale multimodal corpus spanning ten African languages across four language families: Swahili, Kikuyu, Kamba, Kimeru, Luo, Maasai, Kipsigis, Somali (East Africa); Wolof (West Africa); and Fulani (West/Central Africa). The dataset contains over 601,000 approved sentence-level text annotations and over 385,000 audio recordings across nine languages, collected through a dedicated community data collection platform involving over 100 contributors. The Thiomi platform collected data for nine languages; Swahili data was supplemented with existing Common Voice recordings. A multi-tier quality assurance pipeline achieves 86-100% text approval rates for the six primary languages. To validate the dataset's utility, we train and evaluate ASR, MT, and TTS models, establishing baselines across all ten languages. Our best ASR system achieves 3.24% WER on Swahili (Common Voice), reducing prior academic SOTA from 8.3% to 3.24% (5.1 percentage point absolute, 61% relative reduction), and 4.3% WER on Somali. The dataset will be published on HuggingFace. We describe the collection platform, quality assurance workflows, and baseline experiments, and discuss implications for African language technology infrastructure.