SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation

📄 arXiv: 2411.18138v1 📥 PDF

作者: Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang

分类: eess.AS, cs.AI, cs.CL, cs.SD

发布日期: 2024-11-27

备注: Technical report


💡 一句话要点

SALMONN-omni:一种用于全双工语音理解和生成的无编解码器LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全双工对话 语音理解 语音生成 无编解码器 多模态LLM

📋 核心要点

  1. 传统对话AI系统依赖模块化设计,易产生误差传递,且无法充分利用语音中的非语言信息。
  2. SALMONN-omni采用端到端多模态LLM,结合“思考”机制,实现异步文本和语音生成,无需编解码器。
  3. 实验表明,SALMONN-omni在多种语音任务中表现出色,并能有效处理复杂对话场景。

📝 摘要(中文)

本文介绍了一种名为SALMONN-omni的无编解码器全双工语音理解和生成模型,旨在实现更自然、无缝的人机对话。与传统的模块化对话AI系统不同,该模型采用多模态LLM作为统一框架,将语音识别、理解和文本到语音生成整合为单个端到端模型。这种设计消除了组件间的误差传递,并充分利用了输入语音信号中丰富的非语言信息。SALMONN-omni能够同时监听自身生成的语音和背景声音,并提出了一种新的双工口语对话框架,该框架结合了“思考”机制,依靠嵌入而非编解码器来实现异步文本和语音生成。实验结果表明,SALMONN-omni在各种流式语音任务(包括语音识别、语音增强和口语问答)中表现出色,并且擅长处理轮流、抢占和回声消除等场景,展现了其作为全双工对话AI系统强大原型的潜力。据我们所知,SALMONN-omni是同类中首个无编解码器模型。完整的技术报告和模型检查点即将发布。

🔬 方法详解

问题定义:现有对话AI系统通常采用模块化设计,将语音识别、语音理解和文本到语音生成分成独立的模块。这种设计存在误差传递的问题,即一个模块的错误会影响后续模块的性能。此外,传统方法难以充分利用语音信号中包含的丰富的非语言信息,例如语调、情感等。因此,需要一种能够整合语音理解和生成,并能有效利用语音信号中所有信息的端到端模型。

核心思路:SALMONN-omni的核心思路是使用一个统一的多模态LLM来处理语音理解和生成任务。该模型直接从语音信号生成文本,并从文本生成语音,无需中间的编解码器。为了实现全双工对话,该模型还引入了一种“思考”机制,允许模型在说话的同时监听自己的语音和环境声音,从而更好地管理对话流程。

技术框架:SALMONN-omni的技术框架主要包括以下几个模块:1) 语音编码器:将输入的语音信号转换为嵌入表示。2) LLM:使用LLM对语音嵌入进行处理,生成文本或语音嵌入。3) 语音解码器:将LLM生成的语音嵌入转换为语音信号。4) “思考”机制:允许模型在说话的同时监听自己的语音和环境声音,并根据这些信息调整自己的行为。整个流程是端到端的,模型可以直接从语音输入生成语音输出,无需中间的文本表示。

关键创新:SALMONN-omni最重要的技术创新点是其无编解码器的设计。传统的语音处理系统通常使用编解码器将语音信号转换为离散的token序列,然后再使用LLM进行处理。这种方法会丢失语音信号中的一些信息,并且需要大量的计算资源。SALMONN-omni直接使用语音嵌入作为LLM的输入,避免了信息损失和计算开销。此外,该模型还引入了一种新的双工口语对话框架,该框架结合了“思考”机制,可以更好地管理对话流程。

关键设计:SALMONN-omni的关键设计包括:1) 使用Transformer架构作为LLM的基础架构。2) 使用对比学习来训练语音编码器和解码器,以提高语音嵌入的质量。3) 使用强化学习来训练“思考”机制,以优化对话策略。具体的参数设置、损失函数和网络结构等技术细节将在完整的技术报告中详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SALMONN-omni在语音识别、语音增强和口语问答等任务中表现出色。该模型能够有效处理轮流、抢占和回声消除等复杂对话场景。具体性能数据将在完整的技术报告中公布。据作者所知,SALMONN-omni是首个无编解码器的全双工语音理解和生成模型,具有重要的研究意义。

🎯 应用场景

SALMONN-omni具有广泛的应用前景,可用于开发更自然、更智能的对话AI系统,例如智能助手、客服机器人、语音交互游戏等。该模型能够处理复杂的对话场景,例如轮流、抢占和回声消除,因此可以应用于各种实际场景。此外,该模型还可以用于语音增强、语音识别等任务,具有很高的实用价值。未来,该模型有望成为全双工对话AI系统的核心技术。

📄 摘要(原文)

Full-duplex multimodal large language models (LLMs) provide a unified framework for addressing diverse speech understanding and generation tasks, enabling more natural and seamless human-machine conversations. Unlike traditional modularised conversational AI systems, which separate speech recognition, understanding, and text-to-speech generation into distinct components, multimodal LLMs operate as single end-to-end models. This streamlined design eliminates error propagation across components and fully leverages the rich non-verbal information embedded in input speech signals. We introduce SALMONN-omni, a codec-free, full-duplex speech understanding and generation model capable of simultaneously listening to its own generated speech and background sounds while speaking. To support this capability, we propose a novel duplex spoken dialogue framework incorporating a ``thinking'' mechanism that facilitates asynchronous text and speech generation relying on embeddings instead of codecs (quantized speech and audio tokens). Experimental results demonstrate SALMONN-omni's versatility across a broad range of streaming speech tasks, including speech recognition, speech enhancement, and spoken question answering. Additionally, SALMONN-omni excels at managing turn-taking, barge-in, and echo cancellation scenarios, establishing its potential as a robust prototype for full-duplex conversational AI systems. To the best of our knowledge, SALMONN-omni is the first codec-free model of its kind. A full technical report along with model checkpoints will be released soon.