Large Language Models are Strong Audio-Visual Speech Recognition Learners

📄 arXiv: 2409.12319v2 📥 PDF

作者: Umberto Cappellazzo, Minsu Kim, Honglie Chen, Pingchuan Ma, Stavros Petridis, Daniele Falavigna, Alessio Brutti, Maja Pantic

分类: cs.CV, cs.MM, cs.SD, eess.AS

发布日期: 2024-09-18 (更新: 2025-03-07)

备注: Accepted for publication at ICASSP 2025. The code and checkpoints are available here: https://github.com/umbertocappellazzo/Llama-AVSR


💡 一句话要点

提出Llama-AVSR,利用多模态LLM实现卓越的语音和视听语音识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视听语音识别 多模态学习 大型语言模型 自回归模型 参数高效微调

📋 核心要点

  1. 现有视听语音识别(AVSR)方法对噪声敏感,且未充分利用大型语言模型(LLM)的强大能力。
  2. Llama-AVSR利用预训练的音频和视频编码器提取多模态特征,并结合LLM进行自回归语音识别。
  3. 在LRS3基准测试中,Llama-AVSR在ASR和AVSR任务上均取得了当前最佳(SOTA)的0.79%和0.77%的WER。

📝 摘要(中文)

多模态大型语言模型(MLLM)因其强大的多模态理解能力而成为研究热点。例如,在音频和语音领域,通过简单地连接音频编码器计算的音频tokens和文本tokens,LLM可以具备(自动)语音识别(ASR)能力,并达到最先进的结果。然而,像视觉和视听语音识别(VSR/AVSR)这样利用噪声不变的唇动信息的任务,却很少受到关注。为了弥补这一差距,我们提出了Llama-AVSR,一种具有强大视听语音识别能力的新型MLLM。它利用预训练的音频和视频编码器生成特定模态的tokens,这些tokens与文本tokens一起,由预训练的LLM(例如,Llama3.1-8B)处理,以自回归的方式产生最终响应。Llama-AVSR只需要少量可训练的参数,因为只训练特定模态的投影器和LoRA模块,而多模态编码器和LLM保持冻结。我们在最大的公共AVSR基准LRS3上评估了我们提出的方法,并在ASR和AVSR任务中分别取得了0.79%和0.77%的WER的新state-of-the-art结果。为了支持我们的结果,我们研究了Llama-AVSR有效性的关键因素:预训练编码器和LLM的选择,LoRA模块的有效集成,以及通过模态感知压缩率获得的最佳性能-效率权衡。

🔬 方法详解

问题定义:现有的视听语音识别(AVSR)方法通常依赖于专门设计的模型,这些模型可能无法充分利用大规模预训练语言模型的强大能力。此外,这些方法在处理噪声环境下的语音识别时,鲁棒性可能不足,无法有效利用视觉信息进行补偿。

核心思路:Llama-AVSR的核心思路是将视听语音识别问题转化为一个多模态序列生成问题,利用大型语言模型(LLM)的强大语言建模能力,结合预训练的音频和视频编码器提取的特征,实现更准确、更鲁棒的语音识别。通过冻结LLM主体,仅训练少量参数,可以高效地将LLM应用于AVSR任务。

技术框架:Llama-AVSR的整体框架包括以下几个主要模块:1) 音频编码器:将音频信号转换为音频tokens。2) 视频编码器:将唇部运动的视频帧转换为视频tokens。3) 模态特定投影器:将音频和视频tokens投影到LLM的嵌入空间。4) LoRA模块:在LLM中引入低秩适应,以微调LLM的语言建模能力。5) LLM:利用音频、视频和文本tokens,自回归地生成文本序列。

关键创新:Llama-AVSR的关键创新在于将预训练的LLM应用于视听语音识别任务,并设计了一种高效的训练策略,仅需训练少量参数即可达到SOTA性能。此外,该方法还探索了模态感知压缩率,以实现性能和效率之间的最佳平衡。

关键设计:Llama-AVSR的关键设计包括:1) 选择合适的预训练音频和视频编码器,以提取高质量的视听特征。2) 使用LoRA模块进行参数高效的微调,避免对LLM进行大规模的修改。3) 采用模态感知压缩率,根据不同模态的重要性,调整tokens的数量,以优化性能和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Llama-AVSR在LRS3基准测试中取得了显著的成果,在ASR任务中实现了0.79%的WER,在AVSR任务中实现了0.77%的WER,均优于之前的SOTA方法。该结果表明,利用多模态LLM可以显著提高视听语音识别的性能,尤其是在噪声环境下。

🎯 应用场景

Llama-AVSR在嘈杂环境下的语音识别、视频会议、人机交互、语音助手等领域具有广泛的应用前景。该技术可以提高语音识别的准确性和鲁棒性,改善用户体验,并为聋哑人提供辅助工具。未来,该研究可以扩展到更多模态的融合,例如手势识别、面部表情识别等,以实现更自然、更智能的人机交互。

📄 摘要(原文)

Multimodal large language models (MLLMs) have recently become a focal point of research due to their formidable multimodal understanding capabilities. For example, in the audio and speech domains, an LLM can be equipped with (automatic) speech recognition (ASR) abilities by just concatenating the audio tokens, computed with an audio encoder, and the text tokens to achieve state-of-the-art results. On the contrary, tasks like visual and audio-visual speech recognition (VSR/AVSR), which also exploit noise-invariant lip movement information, have received little or no attention. To bridge this gap, we propose Llama-AVSR, a new MLLM with strong audio-visual speech recognition capabilities. It leverages pre-trained audio and video encoders to produce modality-specific tokens which, together with the text tokens, are processed by a pre-trained LLM (e.g., Llama3.1-8B) to yield the resulting response in an auto-regressive fashion. Llama-AVSR requires a small number of trainable parameters as only modality-specific projectors and LoRA modules are trained whereas the multi-modal encoders and LLM are kept frozen. We evaluate our proposed approach on LRS3, the largest public AVSR benchmark, and we achieve new state-of-the-art results for the tasks of ASR and AVSR with a WER of 0.79% and 0.77%, respectively. To bolster our results, we investigate the key factors that underpin the effectiveness of Llama-AVSR: the choice of the pre-trained encoders and LLM, the efficient integration of LoRA modules, and the optimal performance-efficiency trade-off obtained via modality-aware compression rates.