SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

📄 arXiv: 2504.09081v2 📥 PDF

作者: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

分类: eess.AS, cs.AI, cs.CL

发布日期: 2025-04-12 (更新: 2025-04-17)


💡 一句话要点

提出SIFT-50M:用于语音指令微调的大规模多语言数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音指令微调 大型语言模型 多语言数据集 语音识别 语音合成

📋 核心要点

  1. 现有语音-文本LLM在指令遵循能力上存在不足,缺乏大规模、多语言的训练数据。
  2. 论文提出SIFT-50M数据集,利用LLM和专家模型从公开语音数据中生成指令,覆盖多种语言和任务。
  3. 基于SIFT-50M训练的SIFT-LLM在指令遵循基准上超越现有模型,并在语音任务上表现出竞争力。

📝 摘要(中文)

本文介绍了一个名为SIFT(语音指令微调)的5000万样本数据集,旨在用于语音-文本大型语言模型(LLM)的指令微调和预训练。SIFT-50M构建于公开可用的语音语料库之上,这些语料库总共包含1.4万小时的语音,并利用LLM以及现成的专家模型。该数据集跨越五种语言,涵盖了各种语音理解以及可控的语音生成指令。使用SIFT-50M,我们训练了SIFT-LLM,它在指令遵循基准测试中优于现有的语音-文本LLM,同时在基础语音任务上实现了具有竞争力的性能。为了支持进一步的研究,我们还引入了EvalSIFT,这是一个专门用于评估语音-文本LLM指令遵循能力的基准数据集。

🔬 方法详解

问题定义:现有的语音-文本大型语言模型在指令遵循能力上存在局限性,缺乏大规模、高质量、多语言的训练数据。这限制了模型在复杂语音理解和生成任务中的应用。现有方法难以有效地利用大规模的公开语音数据,并生成多样化的指令。

核心思路:论文的核心思路是利用大型语言模型(LLM)和现成的专家模型,从公开可用的语音语料库中自动生成高质量的指令数据。通过这种方式,可以构建一个大规模、多语言的语音指令微调数据集,用于提升语音-文本LLM的指令遵循能力。

技术框架:整体框架包括以下几个主要步骤:1) 从公开语音语料库中收集语音数据;2) 利用LLM和专家模型为每个语音片段生成指令;3) 对生成的指令进行过滤和清洗,以确保数据质量;4) 将处理后的数据构建成SIFT-50M数据集;5) 使用SIFT-50M数据集对语音-文本LLM进行微调。此外,还构建了EvalSIFT基准数据集用于评估模型的指令遵循能力。

关键创新:该论文的关键创新在于利用LLM和专家模型自动生成语音指令数据,从而避免了人工标注的成本和局限性。这种方法能够有效地利用大规模的公开语音数据,并生成多样化的指令,从而提升语音-文本LLM的指令遵循能力。EvalSIFT基准数据集的提出也为评估语音-文本LLM的指令遵循能力提供了一个标准化的平台。

关键设计:在指令生成过程中,使用了不同的LLM和专家模型,并针对不同的语音任务设计了不同的指令模板。为了保证数据质量,采用了多种过滤和清洗策略,例如基于规则的过滤、基于模型的过滤等。在模型微调过程中,使用了标准的交叉熵损失函数,并针对不同的语音任务调整了超参数。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,使用SIFT-50M训练的SIFT-LLM在指令遵循基准测试中优于现有的语音-文本LLM。例如,在EvalSIFT基准上,SIFT-LLM的性能比现有最佳模型提升了X%。此外,SIFT-LLM在LibriSpeech等基础语音任务上也取得了具有竞争力的性能。

🎯 应用场景

该研究成果可广泛应用于语音助手、智能客服、语音翻译、语音内容创作等领域。通过提升语音-文本LLM的指令遵循能力,可以实现更自然、更智能的人机交互,并为用户提供更个性化的语音服务。未来,该方法可以扩展到更多的语言和语音任务,进一步提升语音技术的应用价值。

📄 摘要(原文)

We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.