CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

作者: Zhihao Du, Yuxuan Wang, Qian Chen, Xian Shi, Xiang Lv, Tianyu Zhao, Zhifu Gao, Yexin Yang, Changfeng Gao, Hui Wang, Fan Yu, Huadai Liu, Zhengyan Sheng, Yue Gu, Chong Deng, Wen Wang, Shiliang Zhang, Zhijie Yan, Jingren Zhou

分类: cs.SD, cs.AI, cs.LG, eess.AS

发布日期: 2024-12-13 (更新: 2024-12-25)

备注: Tech report, work in progress

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

CosyVoice 2：基于大语言模型的可扩展流式语音合成，实现人声自然度对等。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音合成 流式合成 大语言模型 离散语音token 有限标量量化

📋 核心要点

现有语音合成模型在交互式应用中面临响应延迟和实时性挑战，影响用户体验。
CosyVoice 2通过优化模型架构、引入有限标量量化和chunk-aware流匹配来降低延迟。
实验表明，CosyVoice 2在流式模式下实现了人声自然度对等和几乎无损的合成质量。

📝 摘要（中文）

本文介绍了CosyVoice 2，一种改进的流式语音合成模型，它建立在我们之前基于监督离散语音token的多语种语音合成模型CosyVoice之上。CosyVoice通过使用语言模型(LMs)和Flow Matching进行渐进式语义解码，在语音上下文学习中展示了高韵律自然度、内容一致性和说话人相似性。最近，多模态大语言模型(LLMs)取得了显著进展，其中语音合成的响应延迟和实时率在交互体验中起着至关重要的作用。因此，本文提出CosyVoice 2，它结合了全面和系统的优化。具体来说，我们引入了有限标量量化来提高语音token的代码本利用率。对于文本-语音LM，我们简化了模型架构，允许直接使用预训练的LLM作为骨干。此外，我们开发了一种chunk-aware因果流匹配模型，以支持各种合成场景，从而在单个模型中实现流式和非流式合成。通过在大型多语种数据集上进行训练，CosyVoice 2实现了人声自然度对等、最小的响应延迟以及流式模式下几乎无损的合成质量。

🔬 方法详解

问题定义：论文旨在解决交互式语音应用中语音合成的响应延迟和实时性问题。现有方法在保证语音质量的同时，难以满足低延迟的需求，尤其是在使用大型语言模型作为骨干网络时。

核心思路：CosyVoice 2的核心思路是通过一系列优化措施，包括改进的token表示、简化的模型架构和chunk-aware流匹配，来降低语音合成的延迟，同时保持或提高语音质量。直接利用预训练LLM作为骨干网络，可以有效利用LLM的强大语言建模能力。

技术框架：CosyVoice 2的整体框架包括以下几个主要模块：1) 文本输入；2) 使用预训练LLM进行文本编码；3) 有限标量量化后的离散语音token表示；4) Chunk-aware因果流匹配模型，用于生成语音token序列；5) 声码器，将语音token序列转换为语音波形。该框架支持流式和非流式两种合成模式。

关键创新：CosyVoice 2的关键创新点在于：1) 引入有限标量量化，提高语音token的代码本利用率；2) 简化模型架构，直接使用预训练LLM作为文本-语音LM的骨干网络；3) 开发Chunk-aware因果流匹配模型，支持流式语音合成。与现有方法相比，CosyVoice 2在保证语音质量的同时，显著降低了响应延迟。

关键设计：有限标量量化用于将连续的语音特征转换为离散的token表示，提高代码本的利用率。Chunk-aware因果流匹配模型通过对输入文本进行分块处理，并利用因果关系建模，实现流式语音合成。具体的损失函数和网络结构细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

CosyVoice 2在大型多语种数据集上训练后，实现了人声自然度对等，并显著降低了响应延迟。在流式模式下，CosyVoice 2能够实现几乎无损的合成质量，这表明该模型在保证语音质量的同时，能够满足实时性要求。

🎯 应用场景

CosyVoice 2可应用于各种需要低延迟、高质量语音合成的场景，如智能助手、语音聊天机器人、实时翻译、游戏和虚拟现实等。该技术能够提升用户交互体验，并为语音交互应用带来更广阔的应用前景。

📄 摘要（原文）

In our previous work, we introduced CosyVoice, a multilingual speech synthesis model based on supervised discrete speech tokens. By employing progressive semantic decoding with two popular generative models, language models (LMs) and Flow Matching, CosyVoice demonstrated high prosody naturalness, content consistency, and speaker similarity in speech in-context learning. Recently, significant progress has been made in multi-modal large language models (LLMs), where the response latency and real-time factor of speech synthesis play a crucial role in the interactive experience. Therefore, in this report, we present an improved streaming speech synthesis model, CosyVoice 2, which incorporates comprehensive and systematic optimizations. Specifically, we introduce finite-scalar quantization to improve the codebook utilization of speech tokens. For the text-speech LM, we streamline the model architecture to allow direct use of a pre-trained LLM as the backbone. In addition, we develop a chunk-aware causal flow matching model to support various synthesis scenarios, enabling both streaming and non-streaming synthesis within a single model. By training on a large-scale multilingual dataset, CosyVoice 2 achieves human-parity naturalness, minimal response latency, and virtually lossless synthesis quality in the streaming mode. We invite readers to listen to the demos at https://funaudiollm.github.io/cosyvoice2.

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理