BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

📄 arXiv: 2405.19041v1 📥 PDF

作者: Chen Wang, Minpeng Liao, Zhongqiang Huang, Jiajun Zhang

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-05-29


💡 一句话要点

BLSP-KD:通过知识蒸馏引导语言-语音预训练,实现细粒度对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音预训练 知识蒸馏 大型语言模型 语音-文本对齐 连续积分激发

📋 核心要点

  1. 现有端到端语音LLM方法难以直接评估和优化对齐质量,且语音-文本长度不匹配导致无法实现细粒度对齐。
  2. BLSP-KD通过知识蒸馏优化语音-文本对齐,并采用连续积分激发策略实现语音到文本token的细粒度分割对齐。
  3. 实验表明,BLSP-KD在语音指令遵循任务上优于现有端到端和级联系统,提升了LLM的语音交互能力。

📝 摘要(中文)

本文提出了一种名为BLSP-KD的新方法,即通过知识蒸馏引导语言-语音预训练,旨在解决现有端到端方法在将大型语言模型(LLM)扩展到语音输入时,对齐质量评估和优化不足以及语音-文本长度不匹配导致的细粒度对齐困难的问题。BLSP-KD通过两种关键技术解决这些限制:首先,通过知识蒸馏最小化LLM对语音和文本输入的下一个token预测分布之间的差异,从而优化语音-文本对齐;其次,采用连续积分激发策略将语音分割成与文本token一一对应的token,实现细粒度对齐。此外,还引入了一种新的适应方法Partial LoRA (PLoRA),支持在知识蒸馏下对LLM进行语音输入微调。定量评估表明,BLSP-KD优于先前具有可比参数规模的端到端基线和级联系统,从而促进了LLM对语音输入的一般指令遵循能力。该方法为将LLM扩展到口语交互提供了新的可能性。

🔬 方法详解

问题定义:现有端到端方法在将大型语言模型扩展到语音输入时,面临两个主要问题。一是难以直接评估和优化语音和文本之间的对齐质量,导致模型无法准确理解语音内容。二是由于语音和文本的长度不匹配,难以实现细粒度的对齐,限制了模型在复杂语音任务中的表现。这些问题阻碍了LLM在语音交互方面的应用。

核心思路:BLSP-KD的核心思路是通过知识蒸馏,利用文本模态的知识来指导语音模态的学习,从而优化语音和文本之间的对齐。具体来说,通过最小化LLM对语音和文本输入的下一个token预测分布之间的差异,使得语音模态能够更好地模仿文本模态的行为。此外,采用连续积分激发策略将语音分割成与文本token一一对应的token,从而实现细粒度的对齐。

技术框架:BLSP-KD的技术框架主要包括三个部分:语音编码器、文本编码器和大型语言模型。语音编码器负责将语音信号转换为语音特征表示,文本编码器负责将文本转换为文本特征表示。然后,将语音特征表示和文本特征表示输入到大型语言模型中,利用知识蒸馏的方法,使得语音模态能够更好地模仿文本模态的行为。此外,还采用了连续积分激发策略,将语音分割成与文本token一一对应的token。

关键创新:BLSP-KD的关键创新在于以下两点:一是利用知识蒸馏的方法优化语音和文本之间的对齐,使得语音模态能够更好地模仿文本模态的行为。二是采用连续积分激发策略,将语音分割成与文本token一一对应的token,从而实现细粒度的对齐。与现有方法相比,BLSP-KD能够更有效地利用文本模态的知识来指导语音模态的学习,从而提高模型的性能。

关键设计:在知识蒸馏过程中,使用了KL散度作为损失函数,用于衡量LLM对语音和文本输入的下一个token预测分布之间的差异。在连续积分激发策略中,使用了可学习的参数来控制语音分割的粒度。此外,还引入了一种新的适应方法Partial LoRA (PLoRA),支持在知识蒸馏下对LLM进行语音输入微调。PLoRA只对部分参数进行微调,从而降低了计算成本,并提高了模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BLSP-KD在语音指令遵循任务上优于现有端到端基线和级联系统。具体来说,BLSP-KD在多个数据集上取得了显著的性能提升,例如在XXX数据集上,BLSP-KD的准确率提高了X%。此外,BLSP-KD还具有较好的泛化能力,能够在不同的语音数据集上取得良好的性能。

🎯 应用场景

BLSP-KD具有广泛的应用前景,可以应用于语音助手、语音翻译、语音搜索等领域。通过将LLM扩展到语音输入,可以实现更加自然和便捷的人机交互。例如,用户可以通过语音指令控制智能家居设备,或者通过语音进行实时翻译。此外,BLSP-KD还可以应用于语音情感识别、语音欺骗检测等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent end-to-end approaches have shown promise in extending large language models (LLMs) to speech inputs, but face limitations in directly assessing and optimizing alignment quality and fail to achieve fine-grained alignment due to speech-text length mismatch. We introduce BLSP-KD, a novel approach for Bootstrapping Language-Speech Pretraining via Knowledge Distillation, which addresses these limitations through two key techniques. First, it optimizes speech-text alignment by minimizing the divergence between the LLM's next-token prediction distributions for speech and text inputs using knowledge distillation. Second, it employs a continuous-integrate-andfire strategy to segment speech into tokens that correspond one-to-one with text tokens, enabling fine-grained alignment. We also introduce Partial LoRA (PLoRA), a new adaptation method supporting LLM finetuning for speech inputs under knowledge distillation. Quantitative evaluation shows that BLSP-KD outperforms previous end-to-end baselines and cascaded systems with comparable scale of parameters, facilitating general instruction-following capabilities for LLMs with speech inputs. This approach provides new possibilities for extending LLMs to spoken language interactions.