Metis: A Foundation Speech Generation Model with Masked Generative Pre-training

📄 arXiv: 2502.03128v1 📥 PDF

作者: Yuancheng Wang, Jiachen Zheng, Junan Zhang, Xueyao Zhang, Huan Liao, Zhizheng Wu

分类: cs.SD, cs.AI, cs.LG, eess.AS, eess.SP

发布日期: 2025-02-05

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Metis模型以统一解决多种语音生成任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音生成 掩蔽生成建模 自监督学习 多模态输入 模型微调

📋 核心要点

  1. 现有的语音生成模型往往是任务特定的,缺乏统一性,难以适应多种任务。
  2. Metis通过掩蔽生成预训练和微调的方式,利用大规模无标注语音数据,提供了一种统一的语音生成解决方案。
  3. 实验结果显示,Metis在多个语音生成任务上表现优异,超越了现有的最先进系统,且训练资源需求显著降低。

📝 摘要(中文)

我们介绍了Metis,一个用于统一语音生成的基础模型。与以往的任务特定或多任务模型不同,Metis遵循预训练和微调的范式。它在大规模无标注语音数据上进行掩蔽生成建模的预训练,然后微调以适应多样的语音生成任务。具体而言,Metis利用两种离散语音表示:从语音自监督学习(SSL)特征中提取的SSL标记,以及直接从波形量化的声学标记。通过在300K小时的多样化语音数据上进行掩蔽生成预训练,Metis在有限的数据和可训练参数下,能够高效适应各种语音生成任务,并支持多模态输入。实验表明,Metis在五个语音生成任务上超越了最先进的任务特定或多任务系统,即使在少于2000万可训练参数或300倍更少的训练数据下,依然表现出色。

🔬 方法详解

问题定义:当前的语音生成模型通常针对特定任务进行优化,导致其在其他任务上的适应性差,且训练资源消耗较大。Metis旨在解决这一问题,提供一个统一的模型框架。

核心思路:Metis采用预训练和微调的策略,首先在大规模无标注语音数据上进行掩蔽生成建模,然后通过微调适应不同的语音生成任务。这种方法使得模型能够在多种任务中共享知识,提高了效率。

技术框架:Metis的整体架构包括两个主要阶段:首先是掩蔽生成预训练阶段,利用SSL标记进行训练;其次是微调阶段,根据具体任务的条件进行调整。模型支持多模态输入,增强了其适应性。

关键创新:Metis的主要创新在于其掩蔽生成预训练方法,利用SSL标记和声学标记的结合,使得模型在无条件的情况下也能有效学习。这与传统的任务特定模型形成了鲜明对比。

关键设计:在模型设计中,Metis使用了300K小时的多样化语音数据进行预训练,且在微调时能够在少于2000万的可训练参数下实现高效适应,显著降低了训练数据需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Metis在五个语音生成任务上均超越了最先进的任务特定系统,尤其在零样本文本到语音转换、语音增强等任务中表现突出。即使在仅使用少于2000万可训练参数和300倍更少的训练数据的情况下,Metis依然展现出优越的性能。

🎯 应用场景

Metis模型在语音合成、语音转换、目标说话人提取、语音增强和唇语转语音等多个领域具有广泛的应用潜力。其统一的框架使得开发者能够在不同任务间快速切换,提升了语音生成技术的实际价值和应用效率。未来,Metis有望推动智能语音助手、语音翻译等领域的发展。

📄 摘要(原文)

We introduce Metis, a foundation model for unified speech generation. Unlike previous task-specific or multi-task models, Metis follows a pre-training and fine-tuning paradigm. It is pre-trained on large-scale unlabeled speech data using masked generative modeling and then fine-tuned to adapt to diverse speech generation tasks. Specifically, 1) Metis utilizes two discrete speech representations: SSL tokens derived from speech self-supervised learning (SSL) features, and acoustic tokens directly quantized from waveforms. 2) Metis performs masked generative pre-training on SSL tokens, utilizing 300K hours of diverse speech data, without any additional condition. 3) Through fine-tuning with task-specific conditions, Metis achieves efficient adaptation to various speech generation tasks while supporting multimodal input, even when using limited data and trainable parameters. Experiments demonstrate that Metis can serve as a foundation model for unified speech generation: Metis outperforms state-of-the-art task-specific or multi-task systems across five speech generation tasks, including zero-shot text-to-speech, voice conversion, target speaker extraction, speech enhancement, and lip-to-speech, even with fewer than 20M trainable parameters or 300 times less training data. Audio samples are are available at https://metis-demo.github.io/.