Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

作者: Sewade Ogun

分类: cs.CL, eess.AS

发布日期: 2026-05-18

备注: 25 pages

💡 一句话要点

SBPN：通过知识蒸馏提升尼日利亚语多语种自动语音识别性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动语音识别 多语种ASR 知识蒸馏 自训练 尼日利亚语 低资源语言 伪标签数据

📋 核心要点

尼日利亚语 ASR 面临数据稀缺、口音多样、拼写不一致等挑战，导致现有模型性能落后于高资源语言。
论文提出两阶段知识蒸馏框架，利用单语模型和伪标签数据迭代优化，提升尼日利亚语 ASR 性能。
实验表明，该方法在词错误率上优于单语基线和现有最优多语种模型，并开源了 SBPN 模型。

📝 摘要（中文）

本文提出了一种多语种自动语音识别（ASR）框架，旨在提升尼日利亚语的语音识别性能。针对尼日利亚语数据稀缺、拼写不一致、声调变异、口音多样、代码切换频繁以及本地命名实体等建模挑战，该框架采用两阶段蒸馏过程。首先，利用现有的单语模型，通过student-teacher知识蒸馏，并结合特定于语言的N-gram语言模型进行条件约束。其次，通过使用伪标签数据进行迭代自提升，进一步提高准确性。实验结果表明，该方法显著缩小了性能差距，平均词错误率（WER）相对于单语基线降低了29%。所提出的模型在Common Voice和Fleurs等主要基准测试中也优于最先进的多语种模型。本文发布了Sometin Beta Pass Notin (SBPN)，一个包含Yorùbá语、Hausa语、Igbo语、尼日利亚皮钦语和尼日利亚英语的基础多语种ASR模型，包含SBPN-Base (120M参数) 和 SBPN-Large (600M参数) 两个版本。通过开源这些基础模型，旨在为该地区丰富的语音和文化研究提供ASR资源。

🔬 方法详解

问题定义：尼日利亚语的自动语音识别（ASR）面临诸多挑战，包括数据稀缺、拼写不一致、声调变异、口音多样、频繁的代码切换以及本地命名实体等。这些因素导致现有 ASR 系统在尼日利亚语上的性能远低于英语和法语等高资源语言，严重限制了尼日利亚语语音技术的发展。

核心思路：论文的核心思路是通过知识蒸馏和自训练来解决尼日利亚语 ASR 的数据稀缺问题。知识蒸馏利用高资源语言或已有的单语模型作为教师模型，将知识迁移到低资源的尼日利亚语学生模型。自训练则通过伪标签数据迭代优化学生模型，进一步提升性能。这种方法旨在利用有限的数据，最大化模型的学习效率和泛化能力。

技术框架：该框架包含两个主要阶段：第一阶段是基于知识蒸馏的预训练，利用现有的单语模型作为教师模型，将知识迁移到多语种学生模型。同时，使用语言相关的 N-gram 语言模型对蒸馏过程进行条件约束，以提高特定语言的识别准确率。第二阶段是基于伪标签数据的自训练，利用第一阶段训练得到的模型对未标注数据进行标注，生成伪标签数据，然后使用这些伪标签数据迭代训练模型，进一步提升模型的性能。

关键创新：该论文的关键创新在于结合了知识蒸馏和自训练，并针对尼日利亚语的特点进行了优化。传统的知识蒸馏方法可能无法充分利用低资源语言的特性，而该论文通过语言相关的 N-gram 语言模型对蒸馏过程进行约束，提高了特定语言的识别准确率。此外，自训练过程利用伪标签数据迭代优化模型，进一步提升了模型的泛化能力。

关键设计：在知识蒸馏阶段，使用了交叉熵损失函数来衡量教师模型和学生模型之间的差异。N-gram 语言模型用于对蒸馏过程进行条件约束，提高特定语言的识别准确率。在自训练阶段，使用了置信度阈值来过滤伪标签数据，避免引入噪声。SBPN 模型包含 SBPN-Base (120M参数) 和 SBPN-Large (600M参数) 两个版本，分别对应不同的模型大小和性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在尼日利亚语 ASR 任务上取得了显著的性能提升，平均词错误率（WER）相对于单语基线降低了 29%。此外，该模型在 Common Voice 和 Fleurs 等主要基准测试中也优于最先进的多语种模型。SBPN 模型已开源发布，为尼日利亚语语音技术研究提供了宝贵的资源。

🎯 应用场景

该研究成果可广泛应用于尼日利亚语相关的语音助手、语音搜索、语音翻译等领域。通过提升尼日利亚语的语音识别准确率，可以促进本地语言内容的创作和传播，打破语言障碍，促进文化交流。此外，该模型还可以作为尼日利亚语语音技术研究的基础平台，为后续研究提供便利。

📄 摘要（原文）

Although modern multilingual Automatic Speech Recognition (ASR) systems support several Nigerian languages, their performance consistently lags behind high-resource languages like English and French. Nigerian languages present unique modelling hurdles, including acute data scarcity, inconsistent orthography, tonal diacritics, diverse accents, frequent code-switching, and localized named entities. To address these challenges, we developed a multilingual ASR framework utilizing a two-stage distillation process. First, we employ student-teacher knowledge distillation from existing monolingual models, conditioned on robust language-specific N-gram language models. Second, we perform iterative self improvement using pseudo-labelled data to further refine accuracy. Our method significantly bridges the performance gap, achieving on average a relative Word Error Rate (WER) reduction of 29 % over monolingual baselines. Our models also outperform state-of-the-art multilingual models across major benchmarks, including Common Voice and Fleurs. We introduce Sometin Beta Pass Notin (SBPN), a foundational multilingual ASR model covering Yorùbá, Hausa, Igbo, Nigerian Pidgin, and Nigerian English. SBPN is released in two sizes: SBPN-Base (120 M parameters) and SBPN-Large (600 M parameters). By releasing these as open foundation models, we aim to provide ASR resources for further research into the rich phonetic and cultural landscape of the region.

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理