Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

📄 arXiv: 2406.09617v1 📥 PDF

作者: Shruti Palaskar, Oggi Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed Tewfik

分类: cs.CL, cs.HC, eess.AS

发布日期: 2024-06-13

备注: Accepted at Interspeech 2024


💡 一句话要点

提出FLoRA以解决多模态设备导向语音检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 低秩适应 设备导向语音检测 大型语言模型 适配器丢弃机制

📋 核心要点

  1. 现有的多模态大型语言模型主要依赖文本数据,缺乏对音频和视频模态的有效适应,导致性能受限。
  2. 本文提出的FLoRA技术通过低秩适应,能够高效地将预训练的单模态LLM扩展到新的模态,减少了参数调优的需求。
  3. 实验结果表明,使用FLoRA的多模态LLM在设备导向语音检测任务中,相比文本-only方法EER降低22%,并且在假接受率上也有显著改善。

📝 摘要(中文)

尽管大型语言模型(LLMs)在类人对话中展现出潜力,但它们主要基于文本数据进行预训练。通过引入音频或视频可以提升性能,但收集大规模多模态数据并预训练多模态LLMs面临挑战。为此,本文提出了一种融合低秩适应(FLoRA)技术,能够高效地将预训练的单模态LLM适应于新颖的、未见过的模态。通过FLoRA,针对设备导向的语音检测,多模态LLM在等错误率(EER)上实现了22%的相对降低,并在参数调优上仅需调整一小部分参数,达到了与全量微调(FFT)模型相当的性能。此外,FLoRA引入的适配器丢弃机制使其对缺失数据具有鲁棒性,相比FFT在EER上降低了20%,假接受率降低了56%。该方法在16M到3B参数规模的模型中表现良好。

🔬 方法详解

问题定义:本文旨在解决现有多模态大型语言模型在设备导向语音检测中对新模态适应性不足的问题。现有方法在处理音频和视频数据时,通常需要大量的多模态数据进行预训练,且性能提升有限。

核心思路:论文提出的FLoRA技术通过低秩适应的方式,能够在保持模型原有性能的基础上,快速适应新的模态。这种设计旨在减少对大规模数据的依赖,并提高模型的灵活性和适应性。

技术框架:FLoRA的整体架构包括预训练的单模态LLM和低秩适应模块。该框架首先通过适配器将新模态的数据输入到模型中,然后通过调整少量参数实现对新模态的适应。

关键创新:FLoRA的最大创新在于其低秩适应机制,使得模型在面对新模态时,仅需调整少量参数即可实现性能提升。这与传统的全量微调方法形成鲜明对比,后者需要对整个模型进行调整。

关键设计:在FLoRA中,适配器丢弃机制被引入以增强模型对缺失数据的鲁棒性。此外,模型的参数设置在16M到3B之间,确保了在不同规模下的良好表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用FLoRA的多模态LLM在设备导向语音检测任务中,相比文本-only方法实现了22%的EER相对降低,并且在假接受率上降低了56%。此外,FLoRA在参数调优上仅需调整一小部分,展现出优越的效率。

🎯 应用场景

该研究的潜在应用领域包括智能助手、语音识别系统以及人机交互等场景。通过提升多模态设备导向语音检测的性能,FLoRA技术能够为用户提供更为精准和自然的交互体验,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Although Large Language Models (LLMs) have shown promise for human-like conversations, they are primarily pre-trained on text data. Incorporating audio or video improves performance, but collecting large-scale multimodal data and pre-training multimodal LLMs is challenging. To this end, we propose a Fusion Low Rank Adaptation (FLoRA) technique that efficiently adapts a pre-trained unimodal LLM to consume new, previously unseen modalities via low rank adaptation. For device-directed speech detection, using FLoRA, the multimodal LLM achieves 22% relative reduction in equal error rate (EER) over the text-only approach and attains performance parity with its full fine-tuning (FFT) counterpart while needing to tune only a fraction of its parameters. Furthermore, with the newly introduced adapter dropout, FLoRA is robust to missing data, improving over FFT by 20% lower EER and 56% lower false accept rate. The proposed approach scales well for model sizes from 16M to 3B parameters.