Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding

📄 arXiv: 2501.06117v3 📥 PDF

作者: Fabian David Schmidt, Ivan Vulić, Goran Glavaš, David Ifeoluwa Adelani

分类: cs.CL, cs.AI

发布日期: 2025-01-10 (更新: 2025-08-13)


💡 一句话要点

Fleurs-SLU:一个大规模多语种口语理解评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 口语理解 多语种 评测基准 低资源语言 语音识别

📋 核心要点

  1. 现有方法在低资源语言的口语理解上存在不足,依赖ASR和文本LLM的级联系统效果不佳。
  2. 论文提出Fleurs-SLU基准,包含大量多语种语音数据,用于主题分类和听力理解问答。
  3. 实验表明级联系统更稳健,预训练语音编码器具有竞争力,闭源语音-LLM表现最佳。

📝 摘要(中文)

口语理解(SLU)对于缺乏正式书写系统的语言至关重要,但这些语言无法像高资源语言那样,将语音的语义理解卸载到自动语音识别(ASR)和基于文本的大型语言模型(LLM)的级联系统中。即使低资源语言拥有书写系统,由于有限的双模态语音和文本训练数据,其ASR仍然不可靠。目前,多语种SLU的评估仅限于意图分类或语言识别等浅层任务。因此,我们提出了Fleurs-SLU,一个多语种SLU评测基准,包含(i)102种语言的692小时语音,用于主题语句分类;(ii)92种语言的944小时语音,用于通过听力理解进行多项选择问答。我们广泛评估了端到端语音分类模型、结合语音转文本和基于LLM的分类的级联系统以及多模态语音-LLM在Fleurs-SLU上的表现。结果表明,级联系统在多语种SLU中更稳健,但预训练良好的语音编码器在主题语音分类中表现也具有竞争力。闭源语音-LLM的性能与级联系统相当或超过级联系统。我们观察到稳健的多语种ASR、有效的语音转文本翻译和强大的多语种SLU之间存在很强的相关性,表明声学和语义语音表示之间存在互惠互利。

🔬 方法详解

问题定义:论文旨在解决多语种口语理解(SLU)的评测问题,尤其是在低资源语言上。现有方法要么依赖于不准确的ASR系统,要么只能进行浅层的意图分类等任务,缺乏一个全面、深入的评测基准来推动相关研究。现有方法的痛点在于缺乏大规模、高质量的多语种语音数据集以及针对复杂SLU任务的评估标准。

核心思路:论文的核心思路是构建一个大规模、多语种的SLU评测基准Fleurs-SLU,包含大量语音数据和多种SLU任务(主题语句分类和听力理解问答),从而为研究者提供一个统一的平台来评估和比较不同的SLU模型。这样设计的目的是为了促进多语种SLU技术的发展,特别是在低资源语言上的应用。

技术框架:Fleurs-SLU基准主要包含两个任务:主题语句分类和听力理解问答。对于主题语句分类,数据集包含102种语言的692小时语音。对于听力理解问答,数据集包含92种语言的944小时语音。论文评估了三种类型的模型:端到端语音分类模型、结合语音转文本(STT)和基于LLM的分类的级联系统,以及多模态语音-LLM。评估流程包括数据预处理、模型训练、性能评估和结果分析。

关键创新:该论文最关键的创新点在于构建了一个大规模、多语种的SLU评测基准Fleurs-SLU。与现有方法相比,Fleurs-SLU覆盖了更多的语言和更复杂的SLU任务,能够更全面地评估模型的性能。此外,论文还对不同类型的SLU模型进行了广泛的评估,为研究者提供了有价值的参考。

关键设计:Fleurs-SLU的数据集构建过程涉及多个步骤,包括数据收集、数据清洗、数据标注和数据划分。为了保证数据的质量,论文采用了严格的标注规范和质量控制措施。在模型评估方面,论文使用了标准的评估指标,如准确率和F1值。对于级联系统,论文研究了不同的STT模型和LLM的组合方式。对于多模态语音-LLM,论文探索了不同的融合策略。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,级联系统在多语种SLU中表现更稳健,但预训练良好的语音编码器在主题语音分类中也具有竞争力。闭源语音-LLM的性能与级联系统相当或超过级联系统。研究还发现,稳健的多语种ASR、有效的语音转文本翻译和强大的多语种SLU之间存在很强的相关性。

🎯 应用场景

Fleurs-SLU基准的潜在应用领域包括多语种语音助手、跨语言信息检索、低资源语言技术开发等。该研究的实际价值在于推动多语种口语理解技术的发展,特别是在低资源语言上的应用,从而促进全球范围内的语言平等。未来,该基准可以扩展到更多的SLU任务和语言,并与其他多模态数据结合,以实现更强大的口语理解能力。

📄 摘要(原文)

Spoken language understanding (SLU) is indispensable for half of all living languages that lack a formal writing system. Unlike for high-resource languages, for these languages, we cannot offload semantic understanding of speech to the cascade of automatic speech recognition (ASR) and text-based large language models (LLMs). Even if low-resource languages possess a writing system, ASR for these languages remains unreliable due to limited bimodal speech and text training data. Nonetheless, the evaluation of multilingual SLU is limited to shallow tasks such as intent classification or language identification. This is why we present Fleurs-SLU, a multilingual SLU benchmark that encompasses (i) 692 hours of speech for topical utterance classification in 102 languages and (ii) multiple-choice question answering via listening comprehension spanning 944 hours of speech across 92 languages. We extensively evaluate end-to-end speech classification models, cascaded systems that combine speech-to-text transcription with subsequent LLM-based classification, and multimodal speech-LLMs on Fleurs-SLU. Our results show that cascaded systems are more robust in multilingual SLU, though well-pretrained speech encoders can perform competitively in topical speech classification. Closed-source speech-LLMs match or surpass the performance of cascaded systems. We observe a strong correlation between robust multilingual ASR, effective speech-to-text translation, and strong multilingual SLU, indicating mutual benefits between acoustic and semantic speech representations.