Towards Robust Speech Representation Learning for Thousands of Languages

📄 arXiv: 2407.00837v2 📥 PDF

作者: William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2024-06-30 (更新: 2024-07-02)

备注: Updated affiliations; 20 pages


💡 一句话要点

XEUS:面向数千种语言的鲁棒语音表征学习,扩展语言覆盖率四倍

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音表征学习 自监督学习 跨语言学习 鲁棒性 去混响

📋 核心要点

  1. 现有语音自监督学习模型在支持全球数千种语言方面存在明显不足,语言覆盖范围有限。
  2. XEUS通过大规模跨语言训练,结合新的去混响目标,提升模型在多语言环境下的鲁棒性。
  3. XEUS在ML-SUPERB等基准测试中表现出色,超越现有SOTA模型,参数量和数据量更少。

📝 摘要(中文)

自监督学习(SSL)通过减少对标注数据的需求,帮助语音技术扩展到更多语言。然而,模型仍然远未支持全球7000多种语言。我们提出了XEUS,一种用于通用语音的跨语言编码器,在超过4057种语言的100多万小时的数据上进行训练,将SSL模型的语言覆盖范围扩大了4倍。我们将来自现有公开可访问语料库的100万小时语音与新创建的来自4057种语言的7400+小时语料库相结合,该语料库将公开发布。为了处理多语言语音数据的多样化条件,我们使用一种新的去混响目标来增强典型的SSL掩码预测方法,从而提高鲁棒性。我们在多个基准上评估了XEUS,并表明它在各种任务中始终优于或达到与最先进(SOTA)的SSL模型相当的结果。XEUS在ML-SUPERB基准上创造了新的SOTA:它分别优于MMS 1B和w2v-BERT 2.0 v2 0.8%和4.4%,尽管参数或预训练数据较少。检查点、代码和数据可在https://www.wavlab.org/activities/2024/xeus/找到。

🔬 方法详解

问题定义:现有自监督语音表征学习模型虽然在多种语言上取得了进展,但对于世界上7000多种语言的支持仍然不足。主要痛点在于缺乏大规模、多语言的训练数据,以及模型在复杂声学环境下的鲁棒性不足。

核心思路:XEUS的核心思路是通过大规模的跨语言训练,学习通用的语音表征。同时,引入去混响目标,增强模型对不同声学环境的适应能力,从而提高模型的鲁棒性和泛化能力。

技术框架:XEUS的整体框架基于自监督学习的掩码预测方法。主要包含以下几个阶段:1) 数据收集与预处理:收集来自4057种语言的超过100万小时的语音数据,包括公开数据集和新创建的语料库。2) 模型训练:使用掩码预测目标和去混响目标联合训练模型。3) 模型评估:在多个语音处理任务的基准数据集上评估模型的性能。

关键创新:XEUS的关键创新在于:1) 大规模跨语言训练:使用了超过4000种语言的数据进行训练,显著扩展了模型的语言覆盖范围。2) 去混响目标:引入了去混响目标,增强了模型在复杂声学环境下的鲁棒性。

关键设计:XEUS使用了标准的Transformer架构作为编码器。掩码预测目标采用常见的随机掩码策略。去混响目标通过预测干净语音谱来训练模型,损失函数可以是均方误差或类似的谱距离度量。具体的参数设置(如Transformer层数、隐藏层大小、注意力头数等)和训练超参数(如学习率、batch size等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

XEUS在ML-SUPERB基准测试中取得了新的SOTA结果,超越了MMS 1B和w2v-BERT 2.0 v2等现有模型,分别提升了0.8%和4.4%。值得注意的是,XEUS在参数量和预训练数据量更少的情况下,仍然取得了更好的性能,表明其具有更高的效率和泛化能力。

🎯 应用场景

XEUS具有广泛的应用前景,包括跨语言语音识别、语音翻译、语音合成等。它可以帮助构建更加通用和鲁棒的语音处理系统,从而更好地服务于全球用户。此外,XEUS还可以应用于低资源语言的语音技术开发,促进语言保护和文化传承。

📄 摘要(原文)

Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Universal Speech, trained on over 1 million hours of data across 4057 languages, extending the language coverage of SSL models 4-fold. We combine 1 million hours of speech from existing publicly accessible corpora with a newly created corpus of 7400+ hours from 4057 languages, which will be publicly released. To handle the diverse conditions of multilingual speech data, we augment the typical SSL masked prediction approach with a novel dereverberation objective, increasing robustness. We evaluate XEUS on several benchmarks, and show that it consistently outperforms or achieves comparable results to state-of-the-art (SOTA) SSL models across a variety of tasks. XEUS sets a new SOTA on the ML-SUPERB benchmark: it outperforms MMS 1B and w2v-BERT 2.0 v2 by 0.8% and 4.4% respectively, despite having less parameters or pre-training data. Checkpoints, code, and data are found in https://www.wavlab.org/activities/2024/xeus/.