Mamba for Streaming ASR Combined with Unimodal Aggregation

📄 arXiv: 2410.00070v2 📥 PDF

作者: Ying Fang, Xiaofei Li

分类: eess.AS, cs.CL, cs.SD

发布日期: 2024-09-30 (更新: 2024-12-27)

备注: Accepted by ICASSP 2025


💡 一句话要点

提出结合单峰聚合的Mamba流式ASR模型,提升识别精度与效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 流式语音识别 Mamba模型 状态空间模型 单峰聚合 先行机制 提前终止 低延迟 中文语音识别

📋 核心要点

  1. 现有流式ASR模型在精度和延迟之间存在权衡,难以同时优化两者。
  2. 利用Mamba模型的线性复杂度优势,结合单峰聚合和先行机制,提升流式ASR的效率。
  3. 实验结果表明,该模型在中文数据集上实现了具有竞争力的识别精度和更低的延迟。

📝 摘要(中文)

本文致力于研究流式自动语音识别(ASR)。最近提出的状态空间模型Mamba,在各种任务中展示了与Transformer相媲美甚至超越其性能的能力,同时受益于线性复杂度的优势。我们探索了Mamba编码器在流式ASR中的效率,并提出了一种相关的先行机制,以利用可控的未来信息。此外,还实现了一种流式单峰聚合(UMA)方法,该方法自动检测token活动并流式触发token输出,同时聚合特征帧以更好地学习token表示。基于UMA,提出了一种提前终止(ET)方法,以进一步降低识别延迟。在两个普通话数据集上进行的实验表明,所提出的模型在识别准确率和延迟方面都实现了具有竞争力的ASR性能。

🔬 方法详解

问题定义:流式自动语音识别(ASR)需要在保证识别精度的前提下,尽可能降低识别延迟。传统的流式ASR模型,如基于RNN或Transformer的模型,在处理长序列时计算复杂度较高,难以兼顾精度和效率。此外,如何有效地利用上下文信息,并在流式处理中动态调整输出时机,也是一个挑战。

核心思路:本文的核心思路是利用Mamba模型的线性复杂度优势,替代传统的RNN或Transformer编码器,从而降低计算成本。同时,引入单峰聚合(UMA)机制,自动检测token活动并触发输出,并结合先行机制,利用未来信息提升识别精度。

技术框架:该模型主要包含以下几个模块:1) Mamba编码器:用于提取语音特征序列的表示。2) 先行机制:允许Mamba模型在一定程度上利用未来的语音帧信息,以提高识别准确率。3) 单峰聚合(UMA):自动检测token活动,聚合特征帧,并触发token输出。4) 提前终止(ET):基于UMA,进一步降低识别延迟。整体流程是:语音信号经过特征提取后,输入到Mamba编码器,通过先行机制获取未来信息,然后由UMA模块进行token活动检测和输出,最后通过ET模块提前终止识别过程。

关键创新:主要创新点在于:1) 将Mamba模型应用于流式ASR,利用其线性复杂度优势提升效率。2) 提出单峰聚合(UMA)机制,实现token的动态输出和特征聚合。3) 结合先行机制和提前终止(ET)方法,进一步优化识别精度和延迟。与传统方法相比,该模型在保证识别精度的前提下,显著降低了计算复杂度和识别延迟。

关键设计:Mamba编码器的具体参数设置(如层数、隐藏层维度等)需要根据数据集进行调整。先行机制中,需要确定合适的先行帧数,以平衡精度和延迟。UMA模块中,需要设计合适的token活动检测算法和特征聚合策略。ET模块中,需要设置合适的提前终止阈值。损失函数通常采用连接时序分类(CTC)损失或注意力机制损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在两个中文数据集上,该模型在识别精度上与现有模型持平或略有提升,同时显著降低了识别延迟。具体性能数据未知,但摘要强调了在精度和延迟两方面的竞争力,表明该模型在流式ASR任务中具有实际应用价值。

🎯 应用场景

该研究成果可应用于各种需要低延迟语音识别的场景,如智能助手、语音搜索、实时语音翻译、语音输入法等。通过降低识别延迟,可以提升用户体验,并为实时交互应用提供更好的支持。未来,该技术有望在嵌入式设备和移动端设备上实现高效部署,进一步拓展其应用范围。

📄 摘要(原文)

This paper works on streaming automatic speech recognition (ASR). Mamba, a recently proposed state space model, has demonstrated the ability to match or surpass Transformers in various tasks while benefiting from a linear complexity advantage. We explore the efficiency of Mamba encoder for streaming ASR and propose an associated lookahead mechanism for leveraging controllable future information. Additionally, a streaming-style unimodal aggregation (UMA) method is implemented, which automatically detects token activity and streamingly triggers token output, and meanwhile aggregates feature frames for better learning token representation. Based on UMA, an early termination (ET) method is proposed to further reduce recognition latency. Experiments conducted on two Mandarin Chinese datasets demonstrate that the proposed model achieves competitive ASR performance in terms of both recognition accuracy and latency.