Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

作者: Fu-An Chao, Berlin Chen

分类: eess.AS, cs.CL

发布日期: 2025-02-11 (更新: 2025-02-21)

备注: Accepted to NAACL 2025 main conference

🔗 代码/项目: GITHUB

💡 一句话要点

提出HMamba模型，融合APA和MDD任务，提升计算机辅助发音训练效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 计算机辅助发音训练 自动发音评估 错误发音检测 选择性状态空间模型 解耦交叉熵损失

📋 核心要点

现有CAPT系统通常独立处理APA和MDD任务，效率较低，难以满足全面需求。
HMamba模型并行集成APA和MDD，并设计解耦交叉熵损失(deXent)优化MDD。
在speechocean762数据集上，HMamba在APA上表现出色，MDD的F1分数提升至63.85%。

📝 摘要（中文）

本文提出了一种名为HMamba的新型计算机辅助发音训练(CAPT)方法，该方法无缝集成了自动发音评估(APA)和错误发音检测与诊断(MDD)任务。传统的CAPT系统通常将APA和MDD视为独立的任务，前者旨在提供跨不同语言层面的多个发音评估分数，而后者则侧重于精确定位非母语学习者所犯的语音发音错误。为了满足同时高效地执行这两项功能的迫切需求，我们提出了HMamba。此外，我们还引入了一种新颖的损失函数，即解耦交叉熵损失(deXent)，专门为MDD量身定制，以促进更好地监督学习，从而检测错误发音的音素，进而提高整体性能。在speechocean762基准数据集上进行的一系列综合实验结果表明，我们的方法在APA方面是有效的。值得注意的是，我们提出的方法还在MDD性能方面取得了显著的改进，超过了强大的基线，实现了63.85%的F1分数。代码已开源。

🔬 方法详解

问题定义：论文旨在解决计算机辅助发音训练(CAPT)系统中自动发音评估(APA)和错误发音检测与诊断(MDD)任务相互独立的问题。现有方法通常将两者分开处理，导致系统效率低下，无法同时提供全面的发音评估和错误诊断。因此，需要一种能够同时高效地执行APA和MDD任务的集成方法。

核心思路：论文的核心思路是将APA和MDD任务集成到一个统一的模型中，从而实现并行处理和信息共享。通过共享底层特征表示，模型可以更有效地学习发音特征，并提高整体性能。此外，针对MDD任务，论文设计了一种新的解耦交叉熵损失(deXent)，以更好地监督模型学习，从而提高错误发音音素的检测精度。

技术框架：HMamba模型的整体架构包含一个共享的特征提取模块，以及两个并行的任务分支，分别用于APA和MDD。特征提取模块负责从输入语音信号中提取发音特征。APA分支根据提取的特征，对发音的各个方面进行评估，并给出相应的分数。MDD分支则根据提取的特征，检测语音中是否存在错误发音的音素，并给出诊断结果。deXent损失函数只在MDD分支使用。

关键创新：论文的关键创新在于以下几个方面：1) 提出了HMamba模型，实现了APA和MDD任务的无缝集成。2) 设计了deXent损失函数，专门用于MDD任务的训练，提高了错误发音音素的检测精度。3) 将选择性状态空间模型（Selective State Space Model）应用于语音处理，提升了模型对长时依赖的建模能力。

关键设计：HMamba模型使用了分层选择性状态空间模型（Hierarchical Selective State Space Model），以捕捉语音信号中的长时依赖关系。deXent损失函数通过解耦正负样本的梯度，从而更加关注错误发音音素的训练。具体的网络结构和参数设置在论文中有详细描述，包括各层的大小、激活函数、优化器等。

📊 实验亮点

实验结果表明，HMamba模型在speechocean762数据集上取得了显著的性能提升。在MDD任务中，HMamba模型的F1分数达到了63.85%，超过了强大的基线模型。同时，HMamba模型在APA任务中也表现出色，证明了其在发音评估方面的有效性。这些结果表明，HMamba模型是一种有效的计算机辅助发音训练方法。

🎯 应用场景

该研究成果可应用于各种计算机辅助语言学习(CALL)系统和移动应用中，帮助非母语学习者提高发音准确性。通过提供自动发音评估和错误诊断，学习者可以及时发现并纠正发音错误，从而更有效地学习外语。此外，该技术还可用于语音识别和语音合成等领域，提高语音处理系统的性能。

📄 摘要（原文）

Prior efforts in building computer-assisted pronunciation training (CAPT) systems often treat automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD) as separate fronts: the former aims to provide multiple pronunciation aspect scores across diverse linguistic levels, while the latter focuses instead on pinpointing the precise phonetic pronunciation errors made by non-native language learners. However, it is generally expected that a full-fledged CAPT system should perform both functionalities simultaneously and efficiently. In response to this surging demand, we in this work first propose HMamba, a novel CAPT approach that seamlessly integrates APA and MDD tasks in parallel. In addition, we introduce a novel loss function, decoupled cross-entropy loss (deXent), specifically tailored for MDD to facilitate better-supervised learning for detecting mispronounced phones, thereby enhancing overall performance. A comprehensive set of empirical results on the speechocean762 benchmark dataset demonstrates the effectiveness of our approach on APA. Notably, our proposed approach also yields a considerable improvement in MDD performance over a strong baseline, achieving an F1-score of 63.85%. Our codes are made available at https://github.com/Fuann/hmamba

Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理