FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian
作者: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
分类: cs.CL, cs.AI, cs.SD
发布日期: 2025-05-28 (更新: 2025-05-30)
💡 一句话要点
FAMA:首个面向英语和意大利语的大规模开源语音基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音基础模型 开源模型 语音识别 语音合成 英语 意大利语 开放科学 Transformer
📋 核心要点
- 现有语音基础模型(如Whisper)的封闭性阻碍了研究的可复现性和公平评估,限制了语音技术领域的开放研究。
- FAMA通过开源代码和数据,构建了英语和意大利语的语音基础模型,促进了语音技术研究的透明性和可及性。
- 实验结果表明,FAMA在保持竞争力的性能的同时,推理速度提升显著,并开源了所有相关资源。
📝 摘要(中文)
语音基础模型(SFMs)如Whisper和SeamlessM4T的开发显著推动了语音处理领域的发展。然而,它们的封闭性——无法访问训练数据和代码——带来了重大的可复现性和公平评估挑战。虽然其他领域通过开发完全透明的、基于开源代码和数据训练的模型,在开放科学方面取得了显著进展,但语音领域的类似努力仍然有限。为了填补这一空白,我们推出了FAMA,这是首个面向英语和意大利语的开源SFM系列,它基于超过15万小时的开源语音数据进行训练。此外,我们还提出了一个新的数据集,包含1.6万小时的针对这两种语言的清洗和伪标签语音数据。结果表明,FAMA在实现与现有SFM具有竞争力的性能的同时,速度提高了8倍。所有成果,包括代码、数据集和模型,均以符合开源规范的许可发布,从而促进了语音技术研究的开放性。
🔬 方法详解
问题定义:现有语音基础模型,如Whisper和SeamlessM4T,虽然性能强大,但其训练数据和代码不公开,导致研究结果难以复现,阻碍了开放科学的发展。现有方法缺乏透明度,限制了研究人员对模型内部机制的理解和改进。
核心思路:FAMA的核心思路是构建完全开源的语音基础模型,包括训练数据、代码和模型权重。通过开源,促进社区参与,加速语音技术的发展,并确保研究结果的可复现性和公平性。该方法旨在填补语音领域在开放科学方面的空白。
技术框架:FAMA的整体框架包括数据收集与清洗、模型训练和评估三个主要阶段。首先,收集并清洗超过15万小时的开源语音数据,并构建包含1.6万小时清洗和伪标签语音数据的新数据集。然后,使用这些数据训练语音基础模型。最后,在标准数据集上评估模型的性能,并与现有模型进行比较。
关键创新:FAMA最重要的技术创新点在于其完全开源的特性。这是首个大规模的、面向英语和意大利语的开源语音基础模型。此外,该论文还提出了一个新的数据集,包含1.6万小时的清洗和伪标签语音数据,为语音技术研究提供了宝贵的资源。
关键设计:FAMA的具体模型架构和训练细节在论文中未详细说明,属于未知信息。但可以推测,其可能采用了Transformer或其他主流的语音处理模型结构。关键设计可能包括针对开源数据的特点进行的数据增强策略,以及为了提高训练效率而采用的分布式训练方法。损失函数和优化器等细节也未明确给出。
🖼️ 关键图片
📊 实验亮点
FAMA在英语和意大利语语音任务上取得了与现有语音基础模型具有竞争力的性能,同时推理速度提高了8倍。此外,论文开源了超过15万小时的训练数据、代码和模型权重,以及包含1.6万小时清洗和伪标签语音数据的新数据集,为语音技术研究提供了宝贵的资源。
🎯 应用场景
FAMA的潜在应用领域包括语音识别、语音合成、语音翻译等。由于其开源特性,研究人员可以基于FAMA进行二次开发,构建各种定制化的语音应用。FAMA的发布将促进语音技术在各个领域的应用,例如智能助手、语音搜索、教育等,并加速语音技术的创新。
📄 摘要(原文)
The development of speech foundation models (SFMs) like Whisper and SeamlessM4T has significantly advanced the field of speech processing. However, their closed nature--with inaccessible training data and code--poses major reproducibility and fair evaluation challenges. While other domains have made substantial progress toward open science by developing fully transparent models trained on open-source (OS) code and data, similar efforts in speech remain limited. To fill this gap, we introduce FAMA, the first family of open science SFMs for English and Italian, trained on 150k+ hours of OS speech data. Moreover, we present a new dataset containing 16k hours of cleaned and pseudo-labeled speech for both languages. Results show that FAMA achieves competitive performance compared to existing SFMs while being up to 8 times faster. All artifacts, including code, datasets, and models, are released under OS-compliant licenses, promoting openness in speech technology research.