Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration

作者: Shigeki Karita, Yuma Koizumi, Heiga Zen, Haruko Ishikawa, Robin Scheibler, Michiel Bacchiani

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-05-07 (更新: 2025-07-23)

备注: Accepted to IEEE WASPAA2025

💡 一句话要点

Miipher-2：面向百万小时数据修复的通用语音恢复模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音恢复 数据清洗 通用语音模型 并行适配器 神经声码器 大规模数据 多语言处理

📋 核心要点

现有的语音恢复方法在处理大规模、多语言数据集时，面临泛化性差、计算成本高昂等挑战。
Miipher-2利用预训练的通用语音模型（USM）作为特征提取器，并结合并行适配器和WaveFit声码器，实现高效的语音恢复。
实验表明，Miipher-2在多种语言上均表现出优异的性能，并能在消费级硬件上实现高效处理，实时因子达到0.0078。

📝 摘要（中文）

本文介绍了Miipher-2，一种专为百万小时级别数据设计的语音恢复（SR）模型，用于大规模生成模型（如大型语言模型）的训练数据清洗。该模型旨在解决的关键挑战包括：泛化到未见过的语言、在没有显式条件（如文本、说话人ID）的情况下运行，以及计算效率。Miipher-2利用预训练的通用语音模型（USM），支持超过300种语言，作为鲁棒且无条件的特征提取器。为了优化效率并最小化内存，Miipher-2集成了并行适配器，用于从噪声输入预测干净的USM特征，并采用WaveFit神经声码器进行波形合成。这些组件在3000小时的多语言、录音室质量的录音上进行训练，并增加了增强的退化，而USM参数保持固定。实验结果表明，Miipher-2在所有测试语言中，在词错误率、说话人相似性以及客观和主观音质评分方面，均优于或可与传统SR模型相媲美。Miipher-2可在消费级加速器上高效运行，实现0.0078的实时因子，仅使用100个此类加速器即可在大约三天内处理一百万小时的语音数据集。

🔬 方法详解

问题定义：论文旨在解决大规模语音数据清洗的问题，特别是在训练大型生成模型时。现有语音恢复方法难以有效处理百万小时级别、包含多种语言的数据集，并且计算成本高昂，限制了其在大规模数据清洗中的应用。此外，传统方法通常需要显式的条件信息（如文本或说话人ID），这在实际应用中可能难以获得。

核心思路：论文的核心思路是利用一个预训练的、通用的语音模型（USM）作为特征提取器，将语音恢复问题转化为USM特征的恢复。由于USM已经学习了丰富的语音表示，因此可以提高模型的泛化能力。同时，通过并行适配器和高效的声码器，降低计算复杂度，实现大规模数据的快速处理。

技术框架：Miipher-2的整体框架包括三个主要模块：1) 预训练的通用语音模型（USM）：用于提取语音特征，该模型参数固定。2) 并行适配器：用于从噪声语音中预测干净的USM特征。3) WaveFit声码器：用于将恢复的USM特征合成为语音波形。整个流程是端到端的，输入噪声语音，输出恢复后的干净语音。

关键创新：该论文的关键创新在于将预训练的通用语音模型（USM）引入到语音恢复任务中，并将其作为无条件的特征提取器。这使得模型能够泛化到多种语言，并且无需显式的条件信息。此外，并行适配器的设计也显著提高了计算效率。

关键设计：USM采用预训练的、支持300多种语言的模型，参数在训练过程中保持固定。并行适配器采用轻量级的网络结构，以减少计算量和内存占用。WaveFit声码器用于高效的波形合成。训练数据包括3000小时的多语言录音室质量数据，并添加了各种噪声和失真，以增强模型的鲁棒性。损失函数包括USM特征的均方误差和波形上的感知损失。

🖼️ 关键图片

📊 实验亮点

Miipher-2在多种语言的语音恢复任务中表现出优异的性能，在词错误率、说话人相似性和音质方面均优于或可与传统SR模型相媲美。该模型在消费级加速器上实现了0.0078的实时因子，仅使用100个加速器即可在三天内处理一百万小时的语音数据。

🎯 应用场景

Miipher-2可应用于大规模语音数据清洗，为语音识别、语音合成等任务提供高质量的训练数据。该模型还可用于语音增强、语音修复等领域，提升语音通信质量。其高效的计算性能使其能够处理海量语音数据，具有广泛的应用前景。

📄 摘要（原文）

Training data cleaning is a new application for generative model-based speech restoration (SR). This paper introduces Miipher-2, an SR model designed for million-hour scale data, for training data cleaning for large-scale generative models like large language models. Key challenges addressed include generalization to unseen languages, operation without explicit conditioning (e.g., text, speaker ID), and computational efficiency. Miipher-2 utilizes a frozen, pre-trained Universal Speech Model (USM), supporting over 300 languages, as a robust, conditioning-free feature extractor. To optimize efficiency and minimize memory, Miipher-2 incorporates parallel adapters for predicting clean USM features from noisy inputs and employs the WaveFit neural vocoder for waveform synthesis. These components were trained on 3,000 hours of multi-lingual, studio-quality recordings with augmented degradations, while USM parameters remained fixed. Experimental results demonstrate Miipher-2's superior or comparable performance to conventional SR models in word-error-rate, speaker similarity, and both objective and subjective sound quality scores across all tested languages. Miipher-2 operates efficiently on consumer-grade accelerators, achieving a real-time factor of 0.0078, enabling the processing of a million-hour speech dataset in approximately three days using only 100 such accelerators.

Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理