Multimodal In-context Learning for ASR of Low-resource Languages
作者: Zhaolin Li, Jan Niehues
分类: cs.CL, cs.AI
发布日期: 2026-01-09
备注: Under review
💡 一句话要点
提出多模态上下文学习方法,提升低资源语言语音识别性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 低资源语言 多模态学习 上下文学习 跨语言迁移学习 语音大模型 声学模型
📋 核心要点
- 现有语音识别技术在低资源语言上表现不佳,主要原因是缺乏足够的标注数据。
- 论文提出利用多模态上下文学习,使语音大模型能够学习并识别未见过的低资源语言。
- 实验表明,该方法能够有效提升低资源语言的语音识别性能,且跨语言迁移学习效果显著。
📝 摘要(中文)
自动语音识别(ASR)目前仅覆盖了世界上少数几种语言,这主要是由于有监督数据的稀缺。大型语言模型(LLM)的上下文学习(ICL)为解决这个问题提供了一种途径,但先前的工作主要集中在训练期间覆盖的高资源语言和纯文本设置上。本文研究了语音LLM是否可以通过多模态ICL(MICL)学习未见过的语言,以及这种学习如何用于改进ASR。我们使用Phi-4和Qwen3-Omni两种语音LLM在三种不同的濒危语言上进行了实验。首先,我们发现MICL对于未见过的语言是有效的,它可以利用语音和文本模态。我们进一步表明,跨语言迁移学习可以提高MICL在目标语言上的效率,而无需在这些语言上进行训练。此外,我们分析了注意力模式以解释MICL机制,并观察到音频和文本上下文之间存在层依赖的偏好,总体上偏向于文本。最后,我们表明基于提示的语音LLM在未见过的语言上表现不佳,因此我们设计了一个简单的ASR系统,该系统通过基于MICL的声学假设选择,将更强的声学模型与语音LLM相结合。结果表明,MICL始终可以提高ASR性能,并且跨语言迁移学习在不使用目标语言数据的情况下,可以达到或超过语料库训练的语言模型的性能。我们的代码已公开。
🔬 方法详解
问题定义:论文旨在解决低资源语言的自动语音识别问题。现有方法,如传统的声学模型和语言模型,在数据稀缺的情况下性能显著下降。即使是大型语言模型,在未经过目标语言训练的情况下,直接应用于低资源语音识别也效果不佳。
核心思路:论文的核心思路是利用多模态上下文学习(MICL),即同时提供语音和文本的上下文信息,来引导语音大型语言模型学习并识别未见过的低资源语言。这种方法模仿了人类通过少量示例快速学习新语言的能力。
技术框架:整体框架包含以下几个关键步骤:1) 构建包含语音和文本示例的上下文提示;2) 将提示输入到语音大型语言模型(如Phi-4或Qwen3-Omni);3) 利用模型生成文本转录;4) 将MICL与传统的声学模型结合,通过MICL选择声学模型的候选假设,从而提升最终的语音识别性能。
关键创新:最重要的创新点在于将多模态上下文学习应用于低资源语音识别,并探索了跨语言迁移学习在MICL中的应用。通过提供少量语音和文本示例,模型能够快速适应新的语言,而无需进行大量的目标语言训练。此外,论文还分析了模型内部的注意力机制,揭示了模型如何利用语音和文本上下文信息。
关键设计:论文的关键设计包括:1) 精心设计的上下文提示,包含语音和文本示例,以引导模型学习;2) 跨语言迁移学习策略,利用高资源语言的数据来提升低资源语言的MICL效果;3) 基于MICL的声学假设选择机制,将语音LLM与传统的声学模型相结合,以提高语音识别的准确性。论文还分析了不同层的注意力权重,发现模型对文本和语音上下文的偏好随层数变化。
📊 实验亮点
实验结果表明,多模态上下文学习(MICL)能够显著提升低资源语言的语音识别性能。通过结合更强的声学模型,MICL能够持续改进ASR性能。更重要的是,跨语言迁移学习在不使用目标语言数据的情况下,可以达到或超过使用目标语言数据训练的语言模型的性能。
🎯 应用场景
该研究成果可应用于濒危语言保护、多语言语音助手、跨境交流等领域。通过多模态上下文学习,即使在缺乏大量训练数据的情况下,也能实现对多种语言的语音识别,从而促进不同文化之间的交流和理解,并为弱势群体提供更好的技术支持。
📄 摘要(原文)
Automatic speech recognition (ASR) still covers only a small fraction of the world's languages, mainly due to supervised data scarcity. In-context learning (ICL) with large language models (LLMs) addresses this problem, but prior work largely focuses on high-resource languages covered during training and text-only settings. This paper investigates whether speech LLMs can learn unseen languages with multimodal ICL (MICL), and how this learning can be used to improve ASR. We conduct experiments with two speech LLMs, Phi-4 and Qwen3-Omni, on three diverse endangered languages. Firstly, we find that MICL is effective for unseen languages, leveraging both speech and text modalities. We further show that cross-lingual transfer learning improves MICL efficiency on target languages without training on them. Moreover, we analyze attention patterns to interpret MICL mechanisms, and we observe layer-dependent preferences between audio and text context, with an overall bias towards text. Finally, we show that prompt-based ASR with speech LLMs performs poorly on unseen languages, motivating a simple ASR system that combines a stronger acoustic model with a speech LLM via MICL-based selection of acoustic hypotheses. Results show that MICL consistently improves ASR performance, and that cross-lingual transfer learning matches or outperforms corpus-trained language models without using target-language data. Our code is publicly available.