OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning

📄 arXiv: 2506.00338v1 📥 PDF

作者: Yifan Peng, Shakeel Muhammad, Yui Sudo, William Chen, Jinchuan Tian, Chyi-Jiunn Lin, Shinji Watanabe

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-05-31

备注: Accepted at INTERSPEECH 2025


💡 一句话要点

OWSM v4:通过数据规模扩展和清洗提升Open Whisper-Style语音模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 语音模型 数据清洗 多语言 开源模型

📋 核心要点

  1. 现有OWSM模型受限于训练数据规模,难以达到工业级语音模型的性能。
  2. 论文提出利用大规模网络爬取数据集YODAS,并通过数据清洗流程解决数据质量问题。
  3. 实验结果表明,OWSM v4模型在多语言语音识别任务上显著提升,甚至超越部分工业模型。

📝 摘要(中文)

Open Whisper-style Speech Models (OWSM)项目旨在利用学术规模的资源开发一系列完全开放的语音基础模型,但其训练数据仍然不足。本文通过整合YODAS(一个具有Creative Commons许可的大规模网络爬取数据集)来增强OWSM。然而,由于YODAS的原始特性,整合并非易事,它带来了诸如不正确的语言标签和音频-文本未对齐等挑战。为了解决这个问题,我们使用公共工具包开发了一个可扩展的数据清洗流程,生成了一个包含75种语言的166,000小时语音的数据集。我们新的OWSM v4模型系列,在该数据集以及现有的OWSM数据上进行训练,在多语言基准测试中显著优于以前的版本。我们的模型甚至在多种场景中匹配或超过了前沿工业模型,如Whisper和MMS。我们将通过ESPnet工具包公开发布清洗后的YODAS数据、预训练模型和所有相关脚本。

🔬 方法详解

问题定义:论文旨在提升Open Whisper-Style语音模型(OWSM)的性能,现有OWSM模型受限于训练数据规模,无法与工业界领先的语音模型(如Whisper和MMS)竞争。直接使用大规模网络爬取数据集(如YODAS)会引入噪声,包括错误的语言标签和音频-文本未对齐等问题,严重影响模型训练效果。

核心思路:论文的核心思路是利用大规模网络爬取数据集YODAS来扩充OWSM的训练数据,并通过一个可扩展的数据清洗流程来解决YODAS数据质量差的问题。通过高质量的数据训练,提升OWSM模型的性能,使其能够与工业界领先的模型相媲美。

技术框架:整体流程包括数据收集、数据清洗和模型训练三个主要阶段。数据收集阶段使用YODAS数据集。数据清洗阶段使用公共工具包构建可扩展的清洗流程,包括语言识别、音频质量评估和音频-文本对齐验证等步骤。模型训练阶段使用清洗后的YODAS数据以及现有的OWSM数据来训练OWSM v4模型。

关键创新:论文的关键创新在于构建了一个可扩展的数据清洗流程,能够有效处理大规模网络爬取数据集中的噪声。该流程利用公共工具包,易于复现和扩展,为其他语音模型的研究提供了参考。此外,论文还成功地将清洗后的数据应用于OWSM模型的训练,显著提升了模型性能。

关键设计:数据清洗流程的关键设计包括:1) 使用语言识别模型过滤掉错误语言的数据;2) 使用音频质量评估模型去除低质量的音频;3) 使用音频-文本对齐验证模型检查音频和文本是否对齐。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

OWSM v4模型在多语言基准测试中显著优于之前的版本,并且在多种场景中匹配甚至超过了前沿工业模型,如Whisper和MMS。具体性能数据和提升幅度在摘要中未给出,属于未知信息。论文强调了清洗后的YODAS数据集的贡献,为模型性能提升提供了关键支持。

🎯 应用场景

该研究成果可应用于多语言语音识别、语音翻译、语音助手等领域。通过开源清洗后的数据集和预训练模型,可以促进语音技术的发展和应用,特别是在资源匮乏的语言和场景下。未来,可以进一步探索更有效的数据清洗方法和模型训练策略,提升语音模型的性能和泛化能力。

📄 摘要(原文)

The Open Whisper-style Speech Models (OWSM) project has developed a series of fully open speech foundation models using academic-scale resources, but their training data remains insufficient. This work enhances OWSM by integrating YODAS, a large-scale web-crawled dataset with a Creative Commons license. However, incorporating YODAS is nontrivial due to its wild nature, which introduces challenges such as incorrect language labels and audio-text misalignments. To address this, we develop a scalable data-cleaning pipeline using public toolkits, yielding a dataset with 166,000 hours of speech across 75 languages. Our new series of OWSM v4 models, trained on this curated dataset alongside existing OWSM data, significantly outperform previous versions on multilingual benchmarks. Our models even match or surpass frontier industrial models like Whisper and MMS in multiple scenarios. We will publicly release the cleaned YODAS data, pre-trained models, and all associated scripts via the ESPnet toolkit.