Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation
作者: Sewade Ogun
分类: cs.CL, eess.AS
发布日期: 2026-05-18
备注: 25 pages
💡 一句话要点
SBPN:通过知识蒸馏提升尼日利亚语多语种自动语音识别性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动语音识别 多语种ASR 知识蒸馏 自训练 尼日利亚语 低资源语言 伪标签数据
📋 核心要点
- 尼日利亚语 ASR 面临数据稀缺、口音多样、拼写不一致等挑战,导致现有模型性能落后于高资源语言。
- 论文提出两阶段知识蒸馏框架,利用单语模型和伪标签数据迭代优化,提升尼日利亚语 ASR 性能。
- 实验表明,该方法在词错误率上优于单语基线和现有最优多语种模型,并开源了 SBPN 模型。
📝 摘要(中文)
本文提出了一种多语种自动语音识别(ASR)框架,旨在提升尼日利亚语的语音识别性能。针对尼日利亚语数据稀缺、拼写不一致、声调变异、口音多样、代码切换频繁以及本地命名实体等建模挑战,该框架采用两阶段蒸馏过程。首先,利用现有的单语模型,通过student-teacher知识蒸馏,并结合特定于语言的N-gram语言模型进行条件约束。其次,通过使用伪标签数据进行迭代自提升,进一步提高准确性。实验结果表明,该方法显著缩小了性能差距,平均词错误率(WER)相对于单语基线降低了29%。所提出的模型在Common Voice和Fleurs等主要基准测试中也优于最先进的多语种模型。本文发布了Sometin Beta Pass Notin (SBPN),一个包含Yorùbá语、Hausa语、Igbo语、尼日利亚皮钦语和尼日利亚英语的基础多语种ASR模型,包含SBPN-Base (120M参数) 和 SBPN-Large (600M参数) 两个版本。通过开源这些基础模型,旨在为该地区丰富的语音和文化研究提供ASR资源。
🔬 方法详解
问题定义:尼日利亚语的自动语音识别(ASR)面临诸多挑战,包括数据稀缺、拼写不一致、声调变异、口音多样、频繁的代码切换以及本地命名实体等。这些因素导致现有 ASR 系统在尼日利亚语上的性能远低于英语和法语等高资源语言,严重限制了尼日利亚语语音技术的发展。
核心思路:论文的核心思路是通过知识蒸馏和自训练来解决尼日利亚语 ASR 的数据稀缺问题。知识蒸馏利用高资源语言或已有的单语模型作为教师模型,将知识迁移到低资源的尼日利亚语学生模型。自训练则通过伪标签数据迭代优化学生模型,进一步提升性能。这种方法旨在利用有限的数据,最大化模型的学习效率和泛化能力。
技术框架:该框架包含两个主要阶段:第一阶段是基于知识蒸馏的预训练,利用现有的单语模型作为教师模型,将知识迁移到多语种学生模型。同时,使用语言相关的 N-gram 语言模型对蒸馏过程进行条件约束,以提高特定语言的识别准确率。第二阶段是基于伪标签数据的自训练,利用第一阶段训练得到的模型对未标注数据进行标注,生成伪标签数据,然后使用这些伪标签数据迭代训练模型,进一步提升模型的性能。
关键创新:该论文的关键创新在于结合了知识蒸馏和自训练,并针对尼日利亚语的特点进行了优化。传统的知识蒸馏方法可能无法充分利用低资源语言的特性,而该论文通过语言相关的 N-gram 语言模型对蒸馏过程进行约束,提高了特定语言的识别准确率。此外,自训练过程利用伪标签数据迭代优化模型,进一步提升了模型的泛化能力。
关键设计:在知识蒸馏阶段,使用了交叉熵损失函数来衡量教师模型和学生模型之间的差异。N-gram 语言模型用于对蒸馏过程进行条件约束,提高特定语言的识别准确率。在自训练阶段,使用了置信度阈值来过滤伪标签数据,避免引入噪声。SBPN 模型包含 SBPN-Base (120M参数) 和 SBPN-Large (600M参数) 两个版本,分别对应不同的模型大小和性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在尼日利亚语 ASR 任务上取得了显著的性能提升,平均词错误率(WER)相对于单语基线降低了 29%。此外,该模型在 Common Voice 和 Fleurs 等主要基准测试中也优于最先进的多语种模型。SBPN 模型已开源发布,为尼日利亚语语音技术研究提供了宝贵的资源。
🎯 应用场景
该研究成果可广泛应用于尼日利亚语相关的语音助手、语音搜索、语音翻译等领域。通过提升尼日利亚语的语音识别准确率,可以促进本地语言内容的创作和传播,打破语言障碍,促进文化交流。此外,该模型还可以作为尼日利亚语语音技术研究的基础平台,为后续研究提供便利。
📄 摘要(原文)
Although modern multilingual Automatic Speech Recognition (ASR) systems support several Nigerian languages, their performance consistently lags behind high-resource languages like English and French. Nigerian languages present unique modelling hurdles, including acute data scarcity, inconsistent orthography, tonal diacritics, diverse accents, frequent code-switching, and localized named entities. To address these challenges, we developed a multilingual ASR framework utilizing a two-stage distillation process. First, we employ student-teacher knowledge distillation from existing monolingual models, conditioned on robust language-specific N-gram language models. Second, we perform iterative self improvement using pseudo-labelled data to further refine accuracy. Our method significantly bridges the performance gap, achieving on average a relative Word Error Rate (WER) reduction of 29 % over monolingual baselines. Our models also outperform state-of-the-art multilingual models across major benchmarks, including Common Voice and Fleurs. We introduce Sometin Beta Pass Notin (SBPN), a foundational multilingual ASR model covering Yorùbá, Hausa, Igbo, Nigerian Pidgin, and Nigerian English. SBPN is released in two sizes: SBPN-Base (120 M parameters) and SBPN-Large (600 M parameters). By releasing these as open foundation models, we aim to provide ASR resources for further research into the rich phonetic and cultural landscape of the region.