Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

📄 arXiv: 2408.03900v1 📥 PDF

作者: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-08-07

备注: Accepted at INTERSPEECH 2024. This version includes the same content but with additional appendices

🔗 代码/项目: GITHUB


💡 一句话要点

提出 Speech-MASSIVE,一个用于多语言语音理解及其他任务的大规模语音数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言语音理解 口语理解 语音数据集 多模态学习 跨语言学习

📋 核心要点

  1. 现有大规模多语言口语理解数据集稀缺,限制了跨语言语音理解模型的发展。
  2. Speech-MASSIVE 通过扩展 MASSIVE 文本语料库,提供多模态、多任务、多语言的语音数据。
  3. 实验表明,Speech-MASSIVE 适用于 SLU、语音转录、语言识别和语音翻译等多种任务的基准测试。

📝 摘要(中文)

本文介绍 Speech-MASSIVE,一个多语言口语理解(SLU)数据集,它是 MASSIVE 文本语料库的语音对应部分。Speech-MASSIVE 涵盖来自不同语系的 12 种语言,并继承了 MASSIVE 中意图预测和槽填充任务的标注。我们扩展的动机是由于大规模多语言 SLU 数据集的稀缺,以及对通用语音数据集日益增长的需求,以评估跨语言和任务的基础模型(LLM、语音编码器)。我们提供了一个多模态、多任务、多语言数据集,并报告了在各种训练场景(零样本、少样本和完全微调)中使用级联和端到端架构的 SLU 基线。此外,我们还证明了 Speech-MASSIVE 适用于基准测试其他任务,如语音转录、语言识别和语音翻译。数据集、模型和代码已公开。

🔬 方法详解

问题定义:论文旨在解决大规模多语言口语理解数据集不足的问题。现有的 SLU 数据集通常规模较小,语言覆盖范围有限,难以支持跨语言的通用语音模型训练和评估。这阻碍了语音理解技术在多语言环境下的应用和发展。

核心思路:论文的核心思路是利用已有的大规模文本数据集 MASSIVE,为其构建对应的语音数据,从而创建一个多语言、多任务的语音理解数据集。通过继承 MASSIVE 的标注信息,可以方便地进行意图预测和槽填充等 SLU 任务的训练和评估。

技术框架:Speech-MASSIVE 的构建流程主要包括以下几个步骤:1) 选择 MASSIVE 数据集的一部分作为基础;2) 为选定的文本数据录制对应的语音数据,覆盖 12 种语言;3) 继承 MASSIVE 数据集的意图和槽位标注;4) 提供基线模型和评估脚本,方便研究人员使用该数据集进行实验。

关键创新:该论文的关键创新在于构建了一个大规模、多语言、多任务的语音理解数据集,填补了该领域的空白。该数据集不仅可以用于 SLU 任务,还可以用于语音转录、语言识别和语音翻译等其他语音处理任务,具有广泛的应用价值。

关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,论文提供了使用级联和端到端架构的 SLU 基线模型,并报告了在各种训练场景(零样本、少样本和完全微调)下的性能表现。这些基线模型可以作为研究人员使用 Speech-MASSIVE 数据集进行实验的起点。

🖼️ 关键图片

fig_0

📊 实验亮点

论文报告了在 Speech-MASSIVE 数据集上使用级联和端到端架构的 SLU 基线模型的性能。实验结果表明,该数据集适用于各种训练场景(零样本、少样本和完全微调)。此外,论文还展示了 Speech-MASSIVE 适用于语音转录、语言识别和语音翻译等其他任务的基准测试。

🎯 应用场景

Speech-MASSIVE 数据集可广泛应用于多语言语音助手、跨语言语音搜索、多语言客户服务等领域。该数据集的发布将促进多语言语音理解技术的发展,并推动语音技术在更多语言和场景下的应用。未来,可以基于该数据集进一步研究跨语言语音模型的迁移学习和泛化能力。

📄 摘要(原文)

We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE