Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT
作者: Ryota Komatsu, Takahiro Shinozaki
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-09-16
备注: Accepted by IEEE SLT 2024
💡 一句话要点
提出一种基于解耦说话人信息的自监督音节发现方法,提升音节分割和单元质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自监督学习 语音表征 音节发现 说话人解耦 数据增强
📋 核心要点
- SD-HuBERT的CLS token倾向于聚合说话人信息,而非音节等语言内容,影响音节发现的准确性。
- 通过引入说话人扰动的数据增强和帧级别训练目标,解耦音节单元和说话人信息,提升音节发现。
- 实验表明,该方法在音节分割和音节单元质量上超越了现有最佳方法,证明了其有效性。
📝 摘要(中文)
自监督语音表征学习对于从无标注音频中提取有意义的特征至关重要。近期的研究进展表明,从与语言单元相关的特征中推导出离散符号具有潜力,这使得跨多种任务的无文本训练成为可能。特别是,预训练HuBERT的句子级自蒸馏(SD-HuBERT)可以在从中间Transformer层提取的潜在语音帧表征中诱导出音节结构。在SD-HuBERT中,句子级表征通过使用特殊CLS token的自注意力层从语音帧特征累积而来。然而,我们观察到CLS token中聚合的信息与说话人身份的相关性高于与语言内容的相关性。为了解决这个问题,我们提出了一种纯语音自监督微调方法,将音节单元与说话人信息分离。我们的方法引入说话人扰动作为数据增强,并采用帧级训练目标来防止CLS token聚合副语言信息。实验结果表明,我们的方法在Librispeech上的大多数音节分割和音节单元质量指标上都超过了当前最先进的方法,突显了其在促进纯语音模型中的音节组织方面的有效性。
🔬 方法详解
问题定义:论文旨在解决自监督语音表征学习中,预训练模型(如SD-HuBERT)提取的特征在进行音节发现时,CLS token聚合的信息过多地与说话人身份相关,而与音节等语言内容相关性不足的问题。这导致音节分割和单元质量下降。现有方法的痛点在于无法有效区分说话人信息和音节信息,使得模型学习到的音节表征受到说话人特征的干扰。
核心思路:论文的核心思路是通过解耦说话人信息和音节信息来提升音节发现的性能。具体来说,通过引入说话人扰动作为数据增强,迫使模型学习对说话人信息不敏感的音节表征。同时,采用帧级别的训练目标,避免CLS token聚合说话人相关的信息,从而专注于学习音节结构。
技术框架:整体框架基于预训练的HuBERT模型。首先,使用HuBERT提取语音帧特征。然后,引入说话人扰动进行数据增强。接着,使用自监督微调方法,采用帧级别的训练目标,训练模型学习解耦的音节表征。最后,使用学习到的表征进行音节分割和单元质量评估。主要模块包括:HuBERT特征提取模块、说话人扰动模块、帧级别训练模块和音节评估模块。
关键创新:最重要的技术创新点在于通过说话人扰动和帧级别训练目标,实现了音节信息和说话人信息的解耦。与现有方法的本质区别在于,现有方法通常没有显式地考虑说话人信息对音节发现的影响,而该论文提出的方法则通过数据增强和训练目标的设计,有效地抑制了说话人信息的影响,从而提升了音节发现的性能。
关键设计:说话人扰动通过对语音信号添加噪声或进行频谱变换来实现,目的是模拟不同的说话人。帧级别训练目标采用对比学习或掩码语言模型等方法,迫使模型学习语音帧之间的关系,而不是依赖于CLS token聚合的全局信息。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Librispeech数据集上,在音节分割和音节单元质量指标上均超越了当前最先进的方法。具体的性能提升幅度在论文中进行了详细的量化分析(未知)。这些结果表明,该方法能够有效地解耦说话人信息和音节信息,从而提升音节发现的性能。
🎯 应用场景
该研究成果可应用于语音识别、语音合成、语音编码等领域。通过提升音节发现的准确性,可以改善语音识别系统的性能,提高语音合成的自然度,并优化语音编码的效率。此外,该方法还可以应用于无监督语音表征学习,为低资源语音处理提供有效的解决方案。
📄 摘要(原文)
Self-supervised speech representation learning has become essential for extracting meaningful features from untranscribed audio. Recent advances highlight the potential of deriving discrete symbols from the features correlated with linguistic units, which enables text-less training across diverse tasks. In particular, sentence-level Self-Distillation of the pretrained HuBERT (SD-HuBERT) induces syllabic structures within latent speech frame representations extracted from an intermediate Transformer layer. In SD-HuBERT, sentence-level representation is accumulated from speech frame features through self-attention layers using a special CLS token. However, we observe that the information aggregated in the CLS token correlates more with speaker identity than with linguistic content. To address this, we propose a speech-only self-supervised fine-tuning approach that separates syllabic units from speaker information. Our method introduces speaker perturbation as data augmentation and adopts a frame-level training objective to prevent the CLS token from aggregating paralinguistic information. Experimental results show that our approach surpasses the current state-of-the-art method in most syllable segmentation and syllabic unit quality metrics on Librispeech, underscoring its effectiveness in promoting syllabic organization within speech-only models.