MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization

📄 arXiv: 2406.17614v1 📥 PDF

作者: Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Lu Yin, Qiao Xiao, Stavros Petridis, Shiwei Liu, Maja Pantic

分类: cs.CV, cs.MM

发布日期: 2024-06-25

备注: Accepted at Interspeech 2024


💡 一句话要点

提出MSRS稀疏掩码优化方法,从头训练高效多模态语音识别模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 多模态学习 稀疏优化 从头训练 正则化 LRS3 梯度消失

📋 核心要点

  1. 预训练模型是语音识别的基础方法,但存在额外的成本开销,需要寻找更高效的训练策略。
  2. MSRS方法通过稀疏正则化,在训练初期快速学习模型中的稀疏结构,改善梯度流动,实现从头训练。
  3. 实验表明,MSRS在LRS3数据集上取得了有竞争力的结果,同时显著减少了训练时间,验证了其有效性。

📝 摘要(中文)

本文提出了一种正则化技术,用于从头训练视觉和听觉-视觉语音识别模型(VSR和AVSR),称为MSRS(Multimodal Speech Recognition from Scratch)。MSRS引入了一种稀疏正则化,在训练初期快速学习密集模型中的稀疏结构,从而获得比密集模型更健康的梯度流。一旦稀疏掩码稳定,该方法允许过渡到密集模型或通过更新非零值来保持稀疏模型。在LRS3基准测试中,MSRS在VSR和AVSR上分别实现了21.1%和0.9%的WER,同时将训练时间至少减少了2倍。本文还探索了其他稀疏方法,结果表明只有MSRS能够通过隐式屏蔽受梯度消失影响的权重来实现从头训练。

🔬 方法详解

问题定义:现有的语音识别模型通常依赖于预训练模型,这增加了计算成本和存储需求。从头训练语音识别模型面临梯度消失等问题,导致训练困难,性能不佳。因此,需要一种方法能够有效地从头训练语音识别模型,同时保持或提高性能。

核心思路:MSRS的核心思路是在训练初期引入稀疏正则化,强制模型学习稀疏连接结构。这种稀疏结构有助于改善梯度流动,避免梯度消失问题,从而使模型能够从头开始有效地学习。随着训练的进行,可以逐渐过渡到密集模型,或者保持稀疏结构以减少计算量。

技术框架:MSRS方法主要包含以下几个阶段:1) 初始化一个密集的语音识别模型;2) 在训练初期,应用稀疏正则化,鼓励模型学习稀疏连接;3) 监测稀疏掩码的稳定性,一旦稳定,可以选择保持稀疏结构或过渡到密集模型;4) 使用标准的反向传播算法更新模型的权重。

关键创新:MSRS的关键创新在于其稀疏正则化策略,该策略能够在训练初期快速学习稀疏结构,从而改善梯度流动,避免梯度消失问题。与其他稀疏方法不同,MSRS能够隐式地屏蔽受梯度消失影响的权重,从而实现从头训练。

关键设计:MSRS使用了一种基于L1正则化的稀疏正则化方法,通过调整正则化系数来控制稀疏度。具体的损失函数包括语音识别损失(例如CTC损失)和稀疏正则化损失。网络结构可以采用各种常见的语音识别模型,例如Transformer或LSTM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MSRS在LRS3基准测试中取得了显著的成果。在视觉语音识别(VSR)任务中,MSRS实现了21.1%的词错误率(WER)。在听觉-视觉语音识别(AVSR)任务中,MSRS实现了0.9%的WER。更重要的是,MSRS将训练时间至少减少了2倍,证明了其高效性。

🎯 应用场景

MSRS方法可应用于各种语音识别任务,尤其是在资源受限的环境中,例如移动设备或嵌入式系统。通过从头训练模型,可以避免对大型预训练模型的依赖,从而降低计算成本和存储需求。此外,MSRS方法还可以用于个性化语音识别,针对特定用户或特定场景进行定制化训练。

📄 摘要(原文)

Pre-trained models have been a foundational approach in speech recognition, albeit with associated additional costs. In this study, we propose a regularization technique that facilitates the training of visual and audio-visual speech recognition models (VSR and AVSR) from scratch. This approach, abbreviated as \textbf{MSRS} (Multimodal Speech Recognition from Scratch), introduces a sparse regularization that rapidly learns sparse structures within the dense model at the very beginning of training, which receives healthier gradient flow than the dense equivalent. Once the sparse mask stabilizes, our method allows transitioning to a dense model or keeping a sparse model by updating non-zero values. MSRS achieves competitive results in VSR and AVSR with 21.1% and 0.9% WER on the LRS3 benchmark, while reducing training time by at least 2x. We explore other sparse approaches and show that only MSRS enables training from scratch by implicitly masking the weights affected by vanishing gradients.