Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time
作者: Frank Seide, Morrie Doulaty, Yangyang Shi, Yashesh Gaur, Junteng Jia, Chunyang Wu
分类: cs.CL, cs.AI, cs.SD, eess.AS
发布日期: 2024-06-13
💡 一句话要点
提出Speech ReaLLM,实现基于多模态LLM的实时流式语音识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实时语音识别 流式ASR Decoder-only ASR 多模态LLM RNN-T Transformer 语音助手
📋 核心要点
- 现有ASR系统难以在实时流式场景下,利用大型语言模型进行语音识别,存在延迟高、端点检测困难等问题。
- Speech ReaLLM借鉴RNN-T思想,在decoder-only ASR架构中,每个输入token后都生成响应,实现实时流式语音识别。
- 实验表明,80M Speech ReaLLM在Librispeech上实现了具有竞争力的WER,证明了该方法在实时语音识别中的有效性。
📝 摘要(中文)
本文介绍了一种新的ASR架构Speech ReaLLM,它将“decoder-only” ASR与RNN-T相结合,使多模态LLM架构能够进行实时流式处理。这是第一个旨在处理连续音频而无需显式端点检测的“decoder-only” ASR架构。Speech ReaLLM是更通用的ReaLLM(“real-time LLM”)方法的一个特例,该方法也是首次在此提出。其思想受到RNN-T的启发:不是仅在用户提示结束时生成响应,而是在实时接收到的每个输入token之后生成响应(通常是空的)。在Librispeech“test”上,一个80M的Speech ReaLLM在实时情况下实现了3.0%和7.4%的WER(没有外部LM或辅助损失)。这仅略高于一个大3倍的Attention-Encoder-Decoder基线。我们还表明,通过这种方式,LLM架构可以学习表示和重现时间的流动;并且可以对预训练的7B LLM进行微调,以在此任务上表现良好。
🔬 方法详解
问题定义:现有ASR系统,特别是基于Attention-Encoder-Decoder结构的系统,在处理实时流式语音识别时面临挑战。传统的端点检测方法不够鲁棒,且难以充分利用大型语言模型(LLM)的上下文理解能力。此外,decoder-only架构通常需要完整的输入序列才能生成输出,不适用于流式场景。
核心思路:Speech ReaLLM的核心思路是借鉴RNN-T的增量生成方式,使得decoder-only ASR架构能够在接收到每个输入token后立即生成输出(即使是空输出)。通过这种方式,LLM可以逐步处理语音输入,并实时更新其内部状态,从而实现真正的流式语音识别。这种设计允许模型学习并重现时间的流动,更好地捕捉语音中的动态信息。
技术框架:Speech ReaLLM的整体架构基于decoder-only Transformer模型。与传统的decoder-only ASR不同,它不是在整个音频序列结束后才生成文本,而是在每个音频帧或token输入后都进行预测。这需要对训练过程进行修改,使其能够处理增量输入和输出。具体来说,模型接收音频特征作为输入,然后通过Transformer decoder生成文本token。在每个时间步,模型都会预测一个token,可以是实际的文本token,也可以是空token,表示没有语音输出。
关键创新:Speech ReaLLM的关键创新在于将RNN-T的流式生成思想引入到decoder-only ASR架构中。这使得LLM能够以增量方式处理语音输入,并实时生成文本输出。此外,该方法还提出了一种通用的ReaLLM框架,可以应用于其他实时LLM任务。
关键设计:Speech ReaLLM的关键设计包括:1) 使用Transformer decoder作为核心模型;2) 采用增量训练策略,使得模型能够在每个时间步生成输出;3) 引入空token,允许模型在没有语音输出时保持沉默;4) 可以通过微调预训练的LLM来提高性能。具体的参数设置和损失函数选择取决于具体的应用场景和数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,80M Speech ReaLLM在Librispeech“test”数据集上实现了3.0%和7.4%的WER,且无需外部语言模型或辅助损失。该性能仅略高于一个大3倍的Attention-Encoder-Decoder基线模型。此外,实验还证明了LLM可以学习表示和重现时间的流动,并且可以通过微调预训练的7B LLM来提高性能。
🎯 应用场景
Speech ReaLLM具有广泛的应用前景,包括实时语音助手、实时语音翻译、实时字幕生成、语音控制智能设备等。该技术可以显著提升用户体验,使得人机交互更加自然和高效。此外,该方法还可以应用于语音分析、情感识别等领域,为智能化应用提供更强大的支持。
📄 摘要(原文)
We introduce Speech ReaLLM, a new ASR architecture that marries "decoder-only" ASR with the RNN-T to make multimodal LLM architectures capable of real-time streaming. This is the first "decoder-only" ASR architecture designed to handle continuous audio without explicit end-pointing. Speech ReaLLM is a special case of the more general ReaLLM ("real-time LLM") approach, also introduced here for the first time. The idea is inspired by RNN-T: Instead of generating a response only at the end of a user prompt, generate after every input token received in real time (it is often empty). On Librispeech "test", an 80M Speech ReaLLM achieves WERs of 3.0% and 7.4% in real time (without an external LM or auxiliary loss). This is only slightly above a 3x larger Attention-Encoder-Decoder baseline. We also show that this way, an LLM architecture can learn to represent and reproduce the flow of time; and that a pre-trained 7B LLM can be fine-tuned to do reasonably well on this task.