Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

作者: Frank Seide, Morrie Doulaty, Yangyang Shi, Yashesh Gaur, Junteng Jia, Chunyang Wu

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2024-06-13

💡 一句话要点

提出Speech ReaLLM，实现基于多模态LLM的实时流式语音识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 实时语音识别 流式ASR Decoder-only ASR 多模态LLM RNN-T Transformer 语音助手

📋 核心要点

现有ASR系统难以在实时流式场景下，利用大型语言模型进行语音识别，存在延迟高、端点检测困难等问题。
Speech ReaLLM借鉴RNN-T思想，在decoder-only ASR架构中，每个输入token后都生成响应，实现实时流式语音识别。
实验表明，80M Speech ReaLLM在Librispeech上实现了具有竞争力的WER，证明了该方法在实时语音识别中的有效性。

📝 摘要（中文）

本文介绍了一种新的ASR架构Speech ReaLLM，它将“decoder-only” ASR与RNN-T相结合，使多模态LLM架构能够进行实时流式处理。这是第一个旨在处理连续音频而无需显式端点检测的“decoder-only” ASR架构。Speech ReaLLM是更通用的ReaLLM（“real-time LLM”）方法的一个特例，该方法也是首次在此提出。其思想受到RNN-T的启发：不是仅在用户提示结束时生成响应，而是在实时接收到的每个输入token之后生成响应（通常是空的）。在Librispeech“test”上，一个80M的Speech ReaLLM在实时情况下实现了3.0%和7.4%的WER（没有外部LM或辅助损失）。这仅略高于一个大3倍的Attention-Encoder-Decoder基线。我们还表明，通过这种方式，LLM架构可以学习表示和重现时间的流动；并且可以对预训练的7B LLM进行微调，以在此任务上表现良好。

🔬 方法详解

问题定义：现有ASR系统，特别是基于Attention-Encoder-Decoder结构的系统，在处理实时流式语音识别时面临挑战。传统的端点检测方法不够鲁棒，且难以充分利用大型语言模型（LLM）的上下文理解能力。此外，decoder-only架构通常需要完整的输入序列才能生成输出，不适用于流式场景。

核心思路：Speech ReaLLM的核心思路是借鉴RNN-T的增量生成方式，使得decoder-only ASR架构能够在接收到每个输入token后立即生成输出（即使是空输出）。通过这种方式，LLM可以逐步处理语音输入，并实时更新其内部状态，从而实现真正的流式语音识别。这种设计允许模型学习并重现时间的流动，更好地捕捉语音中的动态信息。

技术框架：Speech ReaLLM的整体架构基于decoder-only Transformer模型。与传统的decoder-only ASR不同，它不是在整个音频序列结束后才生成文本，而是在每个音频帧或token输入后都进行预测。这需要对训练过程进行修改，使其能够处理增量输入和输出。具体来说，模型接收音频特征作为输入，然后通过Transformer decoder生成文本token。在每个时间步，模型都会预测一个token，可以是实际的文本token，也可以是空token，表示没有语音输出。

关键创新：Speech ReaLLM的关键创新在于将RNN-T的流式生成思想引入到decoder-only ASR架构中。这使得LLM能够以增量方式处理语音输入，并实时生成文本输出。此外，该方法还提出了一种通用的ReaLLM框架，可以应用于其他实时LLM任务。

关键设计：Speech ReaLLM的关键设计包括：1) 使用Transformer decoder作为核心模型；2) 采用增量训练策略，使得模型能够在每个时间步生成输出；3) 引入空token，允许模型在没有语音输出时保持沉默；4) 可以通过微调预训练的LLM来提高性能。具体的参数设置和损失函数选择取决于具体的应用场景和数据集。

🖼️ 关键图片

📊 实验亮点

实验结果表明，80M Speech ReaLLM在Librispeech“test”数据集上实现了3.0%和7.4%的WER，且无需外部语言模型或辅助损失。该性能仅略高于一个大3倍的Attention-Encoder-Decoder基线模型。此外，实验还证明了LLM可以学习表示和重现时间的流动，并且可以通过微调预训练的7B LLM来提高性能。

🎯 应用场景

Speech ReaLLM具有广泛的应用前景，包括实时语音助手、实时语音翻译、实时字幕生成、语音控制智能设备等。该技术可以显著提升用户体验，使得人机交互更加自然和高效。此外，该方法还可以应用于语音分析、情感识别等领域，为智能化应用提供更强大的支持。

📄 摘要（原文）

We introduce Speech ReaLLM, a new ASR architecture that marries "decoder-only" ASR with the RNN-T to make multimodal LLM architectures capable of real-time streaming. This is the first "decoder-only" ASR architecture designed to handle continuous audio without explicit end-pointing. Speech ReaLLM is a special case of the more general ReaLLM ("real-time LLM") approach, also introduced here for the first time. The idea is inspired by RNN-T: Instead of generating a response only at the end of a user prompt, generate after every input token received in real time (it is often empty). On Librispeech "test", an 80M Speech ReaLLM achieves WERs of 3.0% and 7.4% in real time (without an external LM or auxiliary loss). This is only slightly above a 3x larger Attention-Encoder-Decoder baseline. We also show that this way, an LLM architecture can learn to represent and reproduce the flow of time; and that a pre-trained 7B LLM can be fine-tuned to do reasonably well on this task.

Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理