Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration
作者: Shigeki Karita, Yuma Koizumi, Heiga Zen, Haruko Ishikawa, Robin Scheibler, Michiel Bacchiani
分类: cs.SD, cs.CL, eess.AS
发布日期: 2025-05-07 (更新: 2025-07-23)
备注: Accepted to IEEE WASPAA2025
💡 一句话要点
Miipher-2:面向百万小时数据修复的通用语音恢复模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音恢复 数据清洗 通用语音模型 并行适配器 神经声码器 大规模数据 多语言处理
📋 核心要点
- 现有的语音恢复方法在处理大规模、多语言数据集时,面临泛化性差、计算成本高昂等挑战。
- Miipher-2利用预训练的通用语音模型(USM)作为特征提取器,并结合并行适配器和WaveFit声码器,实现高效的语音恢复。
- 实验表明,Miipher-2在多种语言上均表现出优异的性能,并能在消费级硬件上实现高效处理,实时因子达到0.0078。
📝 摘要(中文)
本文介绍了Miipher-2,一种专为百万小时级别数据设计的语音恢复(SR)模型,用于大规模生成模型(如大型语言模型)的训练数据清洗。该模型旨在解决的关键挑战包括:泛化到未见过的语言、在没有显式条件(如文本、说话人ID)的情况下运行,以及计算效率。Miipher-2利用预训练的通用语音模型(USM),支持超过300种语言,作为鲁棒且无条件的特征提取器。为了优化效率并最小化内存,Miipher-2集成了并行适配器,用于从噪声输入预测干净的USM特征,并采用WaveFit神经声码器进行波形合成。这些组件在3000小时的多语言、录音室质量的录音上进行训练,并增加了增强的退化,而USM参数保持固定。实验结果表明,Miipher-2在所有测试语言中,在词错误率、说话人相似性以及客观和主观音质评分方面,均优于或可与传统SR模型相媲美。Miipher-2可在消费级加速器上高效运行,实现0.0078的实时因子,仅使用100个此类加速器即可在大约三天内处理一百万小时的语音数据集。
🔬 方法详解
问题定义:论文旨在解决大规模语音数据清洗的问题,特别是在训练大型生成模型时。现有语音恢复方法难以有效处理百万小时级别、包含多种语言的数据集,并且计算成本高昂,限制了其在大规模数据清洗中的应用。此外,传统方法通常需要显式的条件信息(如文本或说话人ID),这在实际应用中可能难以获得。
核心思路:论文的核心思路是利用一个预训练的、通用的语音模型(USM)作为特征提取器,将语音恢复问题转化为USM特征的恢复。由于USM已经学习了丰富的语音表示,因此可以提高模型的泛化能力。同时,通过并行适配器和高效的声码器,降低计算复杂度,实现大规模数据的快速处理。
技术框架:Miipher-2的整体框架包括三个主要模块:1) 预训练的通用语音模型(USM):用于提取语音特征,该模型参数固定。2) 并行适配器:用于从噪声语音中预测干净的USM特征。3) WaveFit声码器:用于将恢复的USM特征合成为语音波形。整个流程是端到端的,输入噪声语音,输出恢复后的干净语音。
关键创新:该论文的关键创新在于将预训练的通用语音模型(USM)引入到语音恢复任务中,并将其作为无条件的特征提取器。这使得模型能够泛化到多种语言,并且无需显式的条件信息。此外,并行适配器的设计也显著提高了计算效率。
关键设计:USM采用预训练的、支持300多种语言的模型,参数在训练过程中保持固定。并行适配器采用轻量级的网络结构,以减少计算量和内存占用。WaveFit声码器用于高效的波形合成。训练数据包括3000小时的多语言录音室质量数据,并添加了各种噪声和失真,以增强模型的鲁棒性。损失函数包括USM特征的均方误差和波形上的感知损失。
🖼️ 关键图片
📊 实验亮点
Miipher-2在多种语言的语音恢复任务中表现出优异的性能,在词错误率、说话人相似性和音质方面均优于或可与传统SR模型相媲美。该模型在消费级加速器上实现了0.0078的实时因子,仅使用100个加速器即可在三天内处理一百万小时的语音数据。
🎯 应用场景
Miipher-2可应用于大规模语音数据清洗,为语音识别、语音合成等任务提供高质量的训练数据。该模型还可用于语音增强、语音修复等领域,提升语音通信质量。其高效的计算性能使其能够处理海量语音数据,具有广泛的应用前景。
📄 摘要(原文)
Training data cleaning is a new application for generative model-based speech restoration (SR). This paper introduces Miipher-2, an SR model designed for million-hour scale data, for training data cleaning for large-scale generative models like large language models. Key challenges addressed include generalization to unseen languages, operation without explicit conditioning (e.g., text, speaker ID), and computational efficiency. Miipher-2 utilizes a frozen, pre-trained Universal Speech Model (USM), supporting over 300 languages, as a robust, conditioning-free feature extractor. To optimize efficiency and minimize memory, Miipher-2 incorporates parallel adapters for predicting clean USM features from noisy inputs and employs the WaveFit neural vocoder for waveform synthesis. These components were trained on 3,000 hours of multi-lingual, studio-quality recordings with augmented degradations, while USM parameters remained fixed. Experimental results demonstrate Miipher-2's superior or comparable performance to conventional SR models in word-error-rate, speaker similarity, and both objective and subjective sound quality scores across all tested languages. Miipher-2 operates efficiently on consumer-grade accelerators, achieving a real-time factor of 0.0078, enabling the processing of a million-hour speech dataset in approximately three days using only 100 such accelerators.