The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages
作者: Hillary Mutisya, John Mugane, Gavin Nyamboga, Brian Chege, Maryruth Gathoni
分类: cs.CL, cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出Thiomi数据集,用于低资源非洲语言的多模态学习
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 非洲语言 多模态数据集 语音识别 机器翻译 语音合成 低资源语言 数据收集平台
📋 核心要点
- 非洲语言资源匮乏,阻碍了相关语音和语言技术的发展。
- 构建大规模多模态数据集,包含文本和语音数据,覆盖多种非洲语言。
- 在ASR任务上,斯瓦希里语WER降低至3.24%,索马里语WER降低至4.3%。
📝 摘要(中文)
本文介绍了Thiomi数据集,这是一个大规模多模态语料库,涵盖了四种语系的十种非洲语言:斯瓦希里语、基库尤语、坎巴语、基梅鲁语、卢奥语、马赛语、基普西吉斯语、索马里语(东非);沃洛夫语(西非);以及富拉尼语(西/中非)。该数据集包含超过601,000个经过批准的句子级文本标注和超过385,000个音频记录,这些数据是通过一个专门的社区数据收集平台收集的,该平台涉及100多名贡献者。为了验证数据集的效用,我们训练并评估了ASR、MT和TTS模型,为所有语言建立了基线。我们最好的ASR系统在斯瓦希里语(Common Voice)上实现了3.24%的WER,将之前的学术SOTA从8.3%降低到3.24%(绝对降低5.1个百分点,相对降低61%),并在索马里语上实现了4.3%的WER。该数据集将在HuggingFace上发布。我们描述了收集平台、质量保证工作流程和基线实验,并讨论了对非洲语言技术基础设施的影响。
🔬 方法详解
问题定义:现有的非洲语言数据集规模小,覆盖面窄,严重限制了语音识别(ASR)、机器翻译(MT)和语音合成(TTS)等技术的发展。缺乏高质量的标注数据和统一的评估基准,使得相关研究难以开展和比较。现有方法难以有效利用低资源非洲语言的特性,泛化能力较差。
核心思路:本文的核心思路是通过构建一个大规模、多模态的非洲语言数据集,为低资源非洲语言的语音和语言技术研究提供基础。通过社区参与的数据收集平台,降低数据获取成本,并保证数据的多样性和代表性。同时,通过建立基线模型,为后续研究提供参考。
技术框架:Thiomi数据集的构建流程主要包括以下几个阶段:1) 语言选择:选择具有代表性的非洲语言,覆盖不同的语系和地理区域。2) 数据收集平台搭建:开发一个用户友好的数据收集平台,方便社区成员参与数据标注和录制。3) 数据收集:通过平台收集文本和语音数据,并进行初步的质量控制。4) 数据清洗和标注:对收集到的数据进行清洗,去除噪声和错误,并进行句子级别的文本标注。5) 质量保证:建立严格的质量保证流程,包括人工审核和自动检查,确保数据的质量。6) 模型训练和评估:使用数据集训练ASR、MT和TTS模型,并建立基线。
关键创新:该论文的关键创新在于:1) 构建了一个大规模、多模态的非洲语言数据集,填补了该领域的空白。2) 采用社区参与的数据收集模式,降低了数据获取成本,并保证了数据的多样性。3) 建立了严格的质量保证流程,确保数据的质量。4) 提供了ASR、MT和TTS的基线模型,为后续研究提供了参考。
关键设计:数据收集平台的设计考虑了用户友好性和易用性,采用了简洁的界面和清晰的指导。质量保证流程包括人工审核和自动检查,其中人工审核由专业的语言学家进行,自动检查则使用预训练的语言模型进行。ASR模型的训练采用了Transformer架构,并使用了数据增强技术来提高模型的鲁棒性。具体参数设置和损失函数等细节在论文中未详细描述,属于未知信息。
📊 实验亮点
该研究在斯瓦希里语的语音识别任务上取得了显著的性能提升,WER从之前的学术SOTA 8.3%降低到3.24%,实现了61%的相对降低。在索马里语的语音识别任务上也取得了较好的结果,WER为4.3%。这些结果表明,Thiomi数据集对于低资源非洲语言的语音识别具有重要的价值。
🎯 应用场景
该研究成果可应用于非洲语言的语音识别、机器翻译、语音合成等领域,有助于促进非洲语言的信息化和数字化。例如,可以开发非洲语言的语音助手、翻译软件和教育资源,促进当地的经济发展和文化交流。未来,该数据集可以扩展到更多的非洲语言,并与其他模态的数据(如图像、视频)进行融合,为非洲语言的跨模态研究提供支持。
📄 摘要(原文)
We present the Thiomi Dataset, a large-scale multimodal corpus spanning ten African languages across four language families: Swahili, Kikuyu, Kamba, Kimeru, Luo, Maasai, Kipsigis, Somali (East Africa); Wolof (West Africa); and Fulani (West/Central Africa). The dataset contains over 601,000 approved sentence-level text annotations and over 385,000 audio recordings, collected through a dedicated community data collection platform involving over 100 contributors. To validate the dataset's utility, we train and evaluate ASR, MT, and TTS models, establishing baselines across all languages. Our best ASR system achieves 3.24% WER on Swahili (Common Voice), reducing prior academic SOTA from 8.3% to 3.24% (5.1 percentage point absolute, 61% relative reduction), and 4.3% WER on Somali. The dataset will be published on HuggingFace. We describe the collection platform, quality assurance workflows, and baseline experiments, and discuss implications for African language technology infrastructure.