Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation

📄 arXiv: 2408.10557v2 📥 PDF

作者: Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah

分类: cs.CL

发布日期: 2024-08-20 (更新: 2025-03-02)


💡 一句话要点

提出O-HuBERT模型,通过分离参数学习和增强数据增强提升语音表征学习效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音表征学习 自监督学习 HuBERT 数据增强 语音内容 语音表达 SUPERB基准

📋 核心要点

  1. 现有语音表征学习方法难以同时优化内容和表达方式,导致下游任务性能受限。
  2. O-HuBERT模型通过分离可学习参数,分别建模语音内容和表达方式,提升模型容量。
  3. 实验表明,结合强大的数据增强策略,O-HuBERT在SUPERB基准测试中取得了SOTA性能。

📝 摘要(中文)

语音建模方法通常为一段固定长度(10-25ms)的语音学习一个嵌入表示。语音信息可分为“说什么(内容)”和“如何表达(其他)”两类,这两类信息本质上是正交的,如果强制优化在一起,会导致优化算法找到次优解,进而导致下游任务的次优性能。现有的自监督学习(SSL)方法,如HuBERT,非常擅长建模语音中的内容信息。数据增强可以提高那些需要有效建模“其他”信息的任务的性能,但这会导致模型容量的划分。本文进行了一项初步研究,旨在理解使用单独的可学习参数建模“其他”信息的重要性。我们提出了HuBERT的改进版本,称为Other HuBERT(O-HuBERT),以验证我们的假设。我们的发现有两点:首先,O-HuBERT方法能够利用所有层来构建复杂的特征以编码“其他”信息;其次,强大的数据增强策略对于学习依赖于“其他”信息的任务所需的信息至关重要,并且可以使用类似大小的模型(1亿参数)和预训练数据(960小时)在SUPERB基准测试中实现最先进(SOTA)的性能。

🔬 方法详解

问题定义:现有的语音表征学习方法通常将语音的内容信息(“说什么”)和表达方式信息(“如何表达”)混合在一起进行建模。这两种信息本质上是正交的,如果强制模型同时学习这两种信息,会导致模型优化困难,无法充分捕捉语音的全部信息,从而影响下游任务的性能。尤其是在那些依赖于表达方式信息的任务中,性能提升有限。

核心思路:本文的核心思路是将语音的内容信息和表达方式信息分离,使用不同的可学习参数分别进行建模。通过这种方式,模型可以更好地捕捉每种信息的特征,避免信息之间的干扰,从而提高模型的整体性能。同时,作者认为,对于表达方式信息的建模,需要更强大的数据增强策略,以提高模型的鲁棒性。

技术框架:O-HuBERT模型是基于HuBERT的改进版本。HuBERT是一个自监督学习框架,通过预测离散的语音单元来学习语音表征。O-HuBERT在HuBERT的基础上,增加了一组额外的可学习参数,专门用于建模语音的表达方式信息。整体框架仍然采用Transformer结构,但部分层用于学习内容信息,另一部分层用于学习表达方式信息。

关键创新:O-HuBERT的关键创新在于将语音的内容信息和表达方式信息分离建模。与传统的语音表征学习方法相比,O-HuBERT能够更好地捕捉语音的全部信息,从而提高模型的整体性能。此外,O-HuBERT还采用了更强大的数据增强策略,以提高模型对表达方式信息的鲁棒性。

关键设计:O-HuBERT的具体实现细节包括:1) 使用不同的Transformer层分别学习内容信息和表达方式信息;2) 设计了专门的损失函数,用于指导模型学习表达方式信息;3) 采用了多种数据增强方法,包括SpecAugment、Time Masking和Frequency Masking等。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

O-HuBERT模型在SUPERB基准测试中取得了SOTA性能,证明了分离参数学习和增强数据增强的有效性。该模型在参数量和预训练数据量与现有SOTA模型相当的情况下,取得了显著的性能提升,表明该方法具有很高的效率和实用价值。

🎯 应用场景

该研究成果可应用于语音识别、说话人识别、情感识别等多个领域。通过更有效地建模语音的表达方式信息,可以提高这些任务的准确性和鲁棒性。例如,在嘈杂环境下,O-HuBERT模型可以更好地识别说话人的身份,或者更准确地识别语音中的情感。

📄 摘要(原文)

Speech modeling methods learn one embedding for a fixed segment of speech, typically in between 10-25 ms. The information present in speech can be divided into two categories: "what is being said" (content) and "how it is expressed" (other) and these two are orthogonal in nature causing the optimization algorithm to find a sub-optimal solution if forced to optimize together. This leads to sub-optimal performance in one or all downstream tasks as shown by previous studies. Current self-supervised learning (SSL) methods such as HuBERT are very good at modeling the content information present in speech. Data augmentation improves the performance on tasks which require effective modeling of other information but this leads to a divided capacity of the model. In this work, we conduct a preliminary study to understand the importance of modeling other information using separate learnable parameters. We propose a modified version of HuBERT, termed Other HuBERT (O-HuBERT), to test our hypothesis. Our findings are twofold: first, the O-HuBERT method is able to utilize all layers to build complex features to encode other information; second, a robust data augmentation strategy is essential for learning the information required by tasks that depend on other information and to achieve state-of-the-art (SOTA) performance on the SUPERB benchmark with a similarly sized model (100 million parameters) and pre-training data (960 hours).