Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

📄 arXiv: 2502.07575v2 📥 PDF

作者: Fu-An Chao, Berlin Chen

分类: eess.AS, cs.CL

发布日期: 2025-02-11 (更新: 2025-02-21)

备注: Accepted to NAACL 2025 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出HMamba模型,融合APA和MDD任务,提升计算机辅助发音训练效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 计算机辅助发音训练 自动发音评估 错误发音检测 选择性状态空间模型 解耦交叉熵损失

📋 核心要点

  1. 现有CAPT系统通常独立处理APA和MDD任务,效率较低,难以满足全面需求。
  2. HMamba模型并行集成APA和MDD,并设计解耦交叉熵损失(deXent)优化MDD。
  3. 在speechocean762数据集上,HMamba在APA上表现出色,MDD的F1分数提升至63.85%。

📝 摘要(中文)

本文提出了一种名为HMamba的新型计算机辅助发音训练(CAPT)方法,该方法无缝集成了自动发音评估(APA)和错误发音检测与诊断(MDD)任务。传统的CAPT系统通常将APA和MDD视为独立的任务,前者旨在提供跨不同语言层面的多个发音评估分数,而后者则侧重于精确定位非母语学习者所犯的语音发音错误。为了满足同时高效地执行这两项功能的迫切需求,我们提出了HMamba。此外,我们还引入了一种新颖的损失函数,即解耦交叉熵损失(deXent),专门为MDD量身定制,以促进更好地监督学习,从而检测错误发音的音素,进而提高整体性能。在speechocean762基准数据集上进行的一系列综合实验结果表明,我们的方法在APA方面是有效的。值得注意的是,我们提出的方法还在MDD性能方面取得了显著的改进,超过了强大的基线,实现了63.85%的F1分数。代码已开源。

🔬 方法详解

问题定义:论文旨在解决计算机辅助发音训练(CAPT)系统中自动发音评估(APA)和错误发音检测与诊断(MDD)任务相互独立的问题。现有方法通常将两者分开处理,导致系统效率低下,无法同时提供全面的发音评估和错误诊断。因此,需要一种能够同时高效地执行APA和MDD任务的集成方法。

核心思路:论文的核心思路是将APA和MDD任务集成到一个统一的模型中,从而实现并行处理和信息共享。通过共享底层特征表示,模型可以更有效地学习发音特征,并提高整体性能。此外,针对MDD任务,论文设计了一种新的解耦交叉熵损失(deXent),以更好地监督模型学习,从而提高错误发音音素的检测精度。

技术框架:HMamba模型的整体架构包含一个共享的特征提取模块,以及两个并行的任务分支,分别用于APA和MDD。特征提取模块负责从输入语音信号中提取发音特征。APA分支根据提取的特征,对发音的各个方面进行评估,并给出相应的分数。MDD分支则根据提取的特征,检测语音中是否存在错误发音的音素,并给出诊断结果。deXent损失函数只在MDD分支使用。

关键创新:论文的关键创新在于以下几个方面:1) 提出了HMamba模型,实现了APA和MDD任务的无缝集成。2) 设计了deXent损失函数,专门用于MDD任务的训练,提高了错误发音音素的检测精度。3) 将选择性状态空间模型(Selective State Space Model)应用于语音处理,提升了模型对长时依赖的建模能力。

关键设计:HMamba模型使用了分层选择性状态空间模型(Hierarchical Selective State Space Model),以捕捉语音信号中的长时依赖关系。deXent损失函数通过解耦正负样本的梯度,从而更加关注错误发音音素的训练。具体的网络结构和参数设置在论文中有详细描述,包括各层的大小、激活函数、优化器等。

📊 实验亮点

实验结果表明,HMamba模型在speechocean762数据集上取得了显著的性能提升。在MDD任务中,HMamba模型的F1分数达到了63.85%,超过了强大的基线模型。同时,HMamba模型在APA任务中也表现出色,证明了其在发音评估方面的有效性。这些结果表明,HMamba模型是一种有效的计算机辅助发音训练方法。

🎯 应用场景

该研究成果可应用于各种计算机辅助语言学习(CALL)系统和移动应用中,帮助非母语学习者提高发音准确性。通过提供自动发音评估和错误诊断,学习者可以及时发现并纠正发音错误,从而更有效地学习外语。此外,该技术还可用于语音识别和语音合成等领域,提高语音处理系统的性能。

📄 摘要(原文)

Prior efforts in building computer-assisted pronunciation training (CAPT) systems often treat automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD) as separate fronts: the former aims to provide multiple pronunciation aspect scores across diverse linguistic levels, while the latter focuses instead on pinpointing the precise phonetic pronunciation errors made by non-native language learners. However, it is generally expected that a full-fledged CAPT system should perform both functionalities simultaneously and efficiently. In response to this surging demand, we in this work first propose HMamba, a novel CAPT approach that seamlessly integrates APA and MDD tasks in parallel. In addition, we introduce a novel loss function, decoupled cross-entropy loss (deXent), specifically tailored for MDD to facilitate better-supervised learning for detecting mispronounced phones, thereby enhancing overall performance. A comprehensive set of empirical results on the speechocean762 benchmark dataset demonstrates the effectiveness of our approach on APA. Notably, our proposed approach also yields a considerable improvement in MDD performance over a strong baseline, achieving an F1-score of 63.85%. Our codes are made available at https://github.com/Fuann/hmamba