Self-supervised learning of speech representations with Dutch archival data

📄 arXiv: 2507.04554v2 📥 PDF

作者: Nik Vaessen, Roeland Ordelman, David A. van Leeuwen

分类: cs.SD, cs.CL, cs.LG, eess.AS

发布日期: 2025-07-06 (更新: 2025-07-08)

备注: accepted at interspeech 2025


💡 一句话要点

利用荷兰档案数据自监督学习语音表征,实现最先进的荷兰语Wav2Vec 2.0模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 语音识别 Wav2Vec 2.0 荷兰语 档案数据

📋 核心要点

  1. 现有语音自监督学习方法在处理低质量、带噪声的档案数据时面临挑战,影响模型性能。
  2. 论文提出利用Whisper和WhisperX等工具对噪声数据进行预处理,提升数据质量,从而改善模型训练。
  3. 实验表明,单语预训练在处理领域外数据时更稳定,并通过持续预训练实现了荷兰语的SOTA模型。

📝 摘要(中文)

本文探讨了使用荷兰档案电视广播数据进行语音基础模型的自监督学习,特别是wav2vec 2.0。首先,研究了预训练的数据质量假设,并展示了音乐、噪声和说话人重叠如何影响SSL的收敛性和下游微调性能。其次,探索了有效的预处理策略,通过使用Whisper和WhisperX将嘈杂的广播数据集转换为用于预训练的优质数据集。第三,比较了使用等量数据的单语和多语预训练,结果表明单语预训练对领域外数据更具鲁棒性。最后,通过使用55k小时的档案数据集继续预训练wav2vec 2.0 XLS-R模型检查点,实现了荷兰语最先进的LARGE wav2vec 2.0模型。

🔬 方法详解

问题定义:本文旨在解决荷兰语语音识别中,缺乏高质量大规模数据集的问题。现有的语音识别模型在处理包含音乐、噪声和说话人重叠的荷兰档案电视广播数据时,性能会显著下降。这些噪声数据对自监督学习模型的训练构成挑战,阻碍了模型在实际应用中的表现。

核心思路:论文的核心思路是利用自监督学习方法,从大量的低质量荷兰档案电视广播数据中学习有效的语音表征。通过数据预处理和模型训练策略的优化,提高模型对噪声数据的鲁棒性,从而提升在荷兰语语音识别任务上的性能。

技术框架:整体框架包括数据预处理阶段和模型训练阶段。数据预处理阶段使用Whisper和WhisperX等工具对原始的广播数据进行清洗,去除噪声、音乐和说话人重叠等干扰因素。模型训练阶段采用wav2vec 2.0架构,并探索了单语和多语预训练策略。最终,通过持续预训练wav2vec 2.0 XLS-R模型,得到性能最佳的荷兰语语音识别模型。

关键创新:论文的关键创新在于探索了针对低质量档案数据的有效预处理方法,并验证了单语预训练在处理领域外数据时的优势。此外,通过持续预训练,成功地将一个已有的模型迁移到荷兰语语音识别任务上,并取得了显著的性能提升。

关键设计:论文的关键设计包括:1) 使用Whisper和WhisperX进行数据清洗,提高数据质量;2) 比较单语和多语预训练策略,选择更适合荷兰语的单语预训练;3) 通过持续预训练,将wav2vec 2.0 XLS-R模型迁移到荷兰语,并使用55k小时的档案数据进行微调。

🖼️ 关键图片

img_0

📊 实验亮点

该研究通过在55k小时的荷兰档案数据上持续预训练wav2vec 2.0 XLS-R模型,实现了荷兰语语音识别任务的SOTA性能。实验结果表明,单语预训练比多语预训练更适合处理领域外数据,并且有效的数据预处理能够显著提升模型的性能。

🎯 应用场景

该研究成果可应用于荷兰语语音识别、语音搜索、语音转录等领域。通过提升模型在噪声环境下的鲁棒性,可以改善语音助手、自动字幕生成等应用的性能。未来,该方法可以推广到其他低资源语言的语音处理任务中,促进相关技术的发展。

📄 摘要(原文)

This paper explores the use of Dutch archival television broadcast data for self-supervised learning of speech foundation models, specifically wav2vec 2.0. We first study data quality assumptions for pre-training, and show how music, noise and speaker overlap affect SSL convergence and downstream fine-tuning performance. Secondly, we explore effectively pre-processing strategies to convert the noisy broadcast dataset into a qualitative dataset for pre-training, by using Whisper and WhisperX. Thirdly, we compare mono-lingual and multi-lingual pre-training with equivalent amounts of data, and show that mono-lingual pre-training is more robust to out-of-domain data. Lastly, we achieve a state-of-the-art LARGE wav2vec 2.0 model for the Dutch language, by a continuation of pre-training a wav2vec 2.0 XLS-R model checkpoint with our 55k hour archival dataset.