Metis: A Foundation Speech Generation Model with Masked Generative Pre-training

作者: Yuancheng Wang, Jiachen Zheng, Junan Zhang, Xueyao Zhang, Huan Liao, Zhizheng Wu

分类: cs.SD, cs.AI, cs.LG, eess.AS, eess.SP

发布日期: 2025-02-05

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Metis模型以统一解决多种语音生成任务

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音生成 掩蔽生成建模 自监督学习 多模态输入 模型微调

📋 核心要点

现有的语音生成模型往往是任务特定的，缺乏统一性，难以适应多种任务。
Metis通过掩蔽生成预训练和微调的方式，利用大规模无标注语音数据，提供了一种统一的语音生成解决方案。
实验结果显示，Metis在多个语音生成任务上表现优异，超越了现有的最先进系统，且训练资源需求显著降低。

📝 摘要（中文）

我们介绍了Metis，一个用于统一语音生成的基础模型。与以往的任务特定或多任务模型不同，Metis遵循预训练和微调的范式。它在大规模无标注语音数据上进行掩蔽生成建模的预训练，然后微调以适应多样的语音生成任务。具体而言，Metis利用两种离散语音表示：从语音自监督学习（SSL）特征中提取的SSL标记，以及直接从波形量化的声学标记。通过在300K小时的多样化语音数据上进行掩蔽生成预训练，Metis在有限的数据和可训练参数下，能够高效适应各种语音生成任务，并支持多模态输入。实验表明，Metis在五个语音生成任务上超越了最先进的任务特定或多任务系统，即使在少于2000万可训练参数或300倍更少的训练数据下，依然表现出色。

🔬 方法详解

问题定义：当前的语音生成模型通常针对特定任务进行优化，导致其在其他任务上的适应性差，且训练资源消耗较大。Metis旨在解决这一问题，提供一个统一的模型框架。

核心思路：Metis采用预训练和微调的策略，首先在大规模无标注语音数据上进行掩蔽生成建模，然后通过微调适应不同的语音生成任务。这种方法使得模型能够在多种任务中共享知识，提高了效率。

技术框架：Metis的整体架构包括两个主要阶段：首先是掩蔽生成预训练阶段，利用SSL标记进行训练；其次是微调阶段，根据具体任务的条件进行调整。模型支持多模态输入，增强了其适应性。

关键创新：Metis的主要创新在于其掩蔽生成预训练方法，利用SSL标记和声学标记的结合，使得模型在无条件的情况下也能有效学习。这与传统的任务特定模型形成了鲜明对比。

关键设计：在模型设计中，Metis使用了300K小时的多样化语音数据进行预训练，且在微调时能够在少于2000万的可训练参数下实现高效适应，显著降低了训练数据需求。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Metis在五个语音生成任务上均超越了最先进的任务特定系统，尤其在零样本文本到语音转换、语音增强等任务中表现突出。即使在仅使用少于2000万可训练参数和300倍更少的训练数据的情况下，Metis依然展现出优越的性能。

🎯 应用场景

Metis模型在语音合成、语音转换、目标说话人提取、语音增强和唇语转语音等多个领域具有广泛的应用潜力。其统一的框架使得开发者能够在不同任务间快速切换，提升了语音生成技术的实际价值和应用效率。未来，Metis有望推动智能语音助手、语音翻译等领域的发展。

📄 摘要（原文）

We introduce Metis, a foundation model for unified speech generation. Unlike previous task-specific or multi-task models, Metis follows a pre-training and fine-tuning paradigm. It is pre-trained on large-scale unlabeled speech data using masked generative modeling and then fine-tuned to adapt to diverse speech generation tasks. Specifically, 1) Metis utilizes two discrete speech representations: SSL tokens derived from speech self-supervised learning (SSL) features, and acoustic tokens directly quantized from waveforms. 2) Metis performs masked generative pre-training on SSL tokens, utilizing 300K hours of diverse speech data, without any additional condition. 3) Through fine-tuning with task-specific conditions, Metis achieves efficient adaptation to various speech generation tasks while supporting multimodal input, even when using limited data and trainable parameters. Experiments demonstrate that Metis can serve as a foundation model for unified speech generation: Metis outperforms state-of-the-art task-specific or multi-task systems across five speech generation tasks, including zero-shot text-to-speech, voice conversion, target speaker extraction, speech enhancement, and lip-to-speech, even with fewer than 20M trainable parameters or 300 times less training data. Audio samples are are available at https://metis-demo.github.io/.

Metis: A Foundation Speech Generation Model with Masked Generative Pre-training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理