MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens
作者: Jeong Hun Yeo, Hyeongseop Rha, Se Jin Park, Yong Man Ro
分类: cs.CV, cs.MM, cs.SD, eess.AS
发布日期: 2025-03-14 (更新: 2025-06-05)
备注: Accepted at Findings of ACL 2025. The code and models are available https://github.com/JeongHun0716/MMS-LLaMA
💡 一句话要点
提出MMS-LLaMA以解决多模态语音识别中的计算效率问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频语音识别 多模态融合 动态令牌分配 计算效率 大型语言模型
📋 核心要点
- 现有的基于LLM的音视频语音识别系统在处理高时间分辨率的音视频数据时面临高计算成本的挑战。
- 本文提出了一种高效的多模态语音LLM框架,通过最小化令牌长度来保留语言内容,采用动态令牌分配和语速预测。
- 在LRS3数据集上的实验结果显示,该方法以每秒3.5个令牌实现了0.72%的WER,计算效率提高,FLOPs减少35.7%。
📝 摘要(中文)
音视频语音识别(AVSR)通过结合听觉和视觉信息,在嘈杂环境中实现了稳健的语音识别。然而,基于大型语言模型(LLM)的AVSR系统由于处理高时间分辨率的音视频语音而导致高计算成本。本文提出了一种高效的多模态语音LLM框架,最小化了令牌长度,同时保留了必要的语言内容。我们的方法采用了早期的音视频融合模块以简化特征集成,动态分配令牌的音视频语音Q-Former,以及通过语速预测器调整令牌分配的精细查询分配策略。大量在LRS3数据集上的实验表明,我们的方法在每秒仅使用3.5个令牌的情况下,实现了0.72%的字错误率(WER),并将令牌使用量减少了86%。
🔬 方法详解
问题定义:本文旨在解决基于大型语言模型的音视频语音识别系统在高时间分辨率处理时的高计算成本问题。现有方法在处理音视频数据时,令牌数量庞大,导致计算效率低下。
核心思路:我们提出了一种高效的多模态语音LLM框架,核心在于通过最小化令牌长度来保留必要的语言信息,同时引入动态令牌分配机制以适应不同的输入时长。
技术框架:该框架包括三个主要模块:早期音视频融合模块、音视频语音Q-Former和基于语速预测的查询分配策略。早期融合模块简化了特征集成,Q-Former根据输入时长动态分配令牌,而查询分配策略则根据语速调整令牌分配。
关键创新:最重要的创新在于动态令牌分配机制和语速预测的结合,使得系统能够根据说话速度灵活调整令牌数量,从而显著提高计算效率。与现有方法相比,我们的方法在令牌使用上减少了86%。
关键设计:在设计中,我们设置了适应性强的令牌分配策略,采用了精细的损失函数以优化语音识别性能,并在网络结构上进行了调整,以支持高效的特征融合与动态令牌分配。
🖼️ 关键图片
📊 实验亮点
在LRS3数据集上的实验结果显示,MMS-LLaMA以每秒仅3.5个令牌实现了0.72%的字错误率(WER),相比于之前的多模态语音LLM框架,令牌使用量减少了86%,计算效率提高,FLOPs减少35.7%。
🎯 应用场景
该研究具有广泛的应用潜力,尤其是在需要高效语音识别的场景中,如智能助手、自动字幕生成和人机交互系统。通过提高计算效率,MMS-LLaMA能够在资源受限的设备上实现实时语音识别,推动相关技术的普及与应用。
📄 摘要(原文)
Audio-Visual Speech Recognition (AVSR) achieves robust speech recognition in noisy environments by combining auditory and visual information. However, recent Large Language Model (LLM) based AVSR systems incur high computational costs due to the high temporal resolution of audio-visual speech processed by LLMs. In this work, we introduce an efficient multimodal speech LLM framework that minimizes token length while preserving essential linguistic content. Our approach employs an early AV-fusion module for streamlined feature integration, an audio-visual speech Q-Former that dynamically allocates tokens based on input duration, and a refined query allocation strategy with a speech rate predictor to adjust token allocation according to speaking speed of each audio sample. Extensive experiments on the LRS3 dataset show that our method achieves state-of-the-art performance with a WER of 0.72% while using only 3.5 tokens per second. Moreover, our approach not only reduces token usage by 86% compared to the previous multimodal speech LLM framework, but also improves computational efficiency by reducing FLOPs by 35.7%.