Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

📄 arXiv: 2502.04128v2 📥 PDF

作者: Zhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi Dai, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue

分类: eess.AS, cs.AI, cs.CL, cs.MM, cs.SD

发布日期: 2025-02-06 (更新: 2025-02-22)


💡 一句话要点

Llasa:通过扩展训练和推理计算资源,提升基于Llama的语音合成效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音合成 大型语言模型 Transformer 矢量量化 计算资源扩展

📋 核心要点

  1. 现有的基于LLM的TTS系统通常是多阶段的,需要单独的模型,这使得决定在训练或测试期间是否扩展特定模型变得复杂。
  2. Llasa框架采用单层VQ编解码器和单个Transformer架构,与Llama等标准LLM对齐,简化了语音合成流程。
  3. 实验表明,扩展训练计算资源可提高合成语音的自然度,生成更准确的韵律,扩展推理计算资源可提高情感表达和内容准确性。

📝 摘要(中文)

本文探讨了语音合成中训练和推理计算资源扩展的问题。我们提出了一个名为Llasa的简单语音合成框架,该框架采用单层矢量量化(VQ)编解码器和单个Transformer架构,与标准的LLM(如Llama)完全对齐。实验表明,扩展Llasa的训练计算资源能够持续提高合成语音的自然度,并生成更复杂和准确的韵律模式。此外,从扩展推理计算资源的角度来看,我们采用语音理解模型作为搜索过程中的验证器,发现扩展推理计算资源可以将采样模式转移到特定验证器的偏好上,从而提高情感表达、音色一致性和内容准确性。我们还公开发布了TTS模型(1B、3B、8B)和编解码器模型的检查点和训练代码。

🔬 方法详解

问题定义:现有基于LLM的语音合成系统通常采用多阶段架构,例如LLM后接扩散模型,这增加了训练和推理时计算资源分配的复杂性。难以确定哪个阶段的模型应该扩展计算资源以获得最佳性能。

核心思路:论文的核心思路是简化语音合成流程,使其与标准LLM架构对齐,从而能够直接应用LLM领域中扩展计算资源的经验。通过使用单层VQ编解码器和单个Transformer架构,Llasa框架消除了多阶段模型带来的复杂性。

技术框架:Llasa框架包含一个单层VQ编解码器和一个Transformer架构。VQ编解码器将语音信号转换为离散的码本索引序列,Transformer模型则学习从文本到码本索引的映射。在推理阶段,Transformer模型生成码本索引序列,然后通过VQ解码器将其转换回语音信号。语音理解模型被用作验证器,在推理过程中引导采样,以提高语音质量。

关键创新:Llasa的关键创新在于其简洁的单阶段架构,它与标准LLM(如Llama)完全对齐。这种设计使得可以直接利用LLM领域中扩展计算资源的经验,而无需考虑多阶段模型带来的复杂性。此外,使用语音理解模型作为验证器来指导推理过程也是一个创新点,可以提高语音的情感表达、音色一致性和内容准确性。

关键设计:Llasa框架的关键设计包括:1)使用单层VQ编解码器进行语音表示,简化了语音建模过程;2)采用标准的Transformer架构,便于利用现有的LLM技术;3)使用语音理解模型作为验证器,通过调整采样策略来优化语音质量。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,扩展Llasa的训练计算资源能够持续提高合成语音的自然度,并生成更复杂和准确的韵律模式。此外,通过使用语音理解模型作为验证器,扩展推理计算资源可以提高语音的情感表达、音色一致性和内容准确性。论文公开发布了TTS模型(1B、3B、8B)和编解码器模型的检查点和训练代码。

🎯 应用场景

Llasa框架可应用于各种语音合成场景,例如语音助手、文本转语音阅读器、游戏角色配音等。该研究的成果有助于开发更自然、更具表现力的语音合成系统,并为未来的语音合成研究提供新的方向。通过扩展计算资源,可以进一步提高语音合成的质量和效率。

📄 摘要(原文)

Recent advances in text-based large language models (LLMs), particularly in the GPT series and the o1 model, have demonstrated the effectiveness of scaling both training-time and inference-time compute. However, current state-of-the-art TTS systems leveraging LLMs are often multi-stage, requiring separate models (e.g., diffusion models after LLM), complicating the decision of whether to scale a particular model during training or testing. This work makes the following contributions: First, we explore the scaling of train-time and inference-time compute for speech synthesis. Second, we propose a simple framework Llasa for speech synthesis that employs a single-layer vector quantizer (VQ) codec and a single Transformer architecture to fully align with standard LLMs such as Llama. Our experiments reveal that scaling train-time compute for Llasa consistently improves the naturalness of synthesized speech and enables the generation of more complex and accurate prosody patterns. Furthermore, from the perspective of scaling inference-time compute, we employ speech understanding models as verifiers during the search, finding that scaling inference-time compute shifts the sampling modes toward the preferences of specific verifiers, thereby improving emotional expressiveness, timbre consistency, and content accuracy. In addition, we released the checkpoint and training code for our TTS model (1B, 3B, 8B) and codec model publicly available.