TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

📄 arXiv: 2509.13395v1 📥 PDF

作者: Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

分类: eess.AS, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2025-09-16


💡 一句话要点

TICL:文本嵌入KNN用于语音上下文学习,解锁大型多模态模型的语音识别能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音上下文学习 文本嵌入 KNN算法 多模态模型 语音识别 语义相似性 零样本学习

📋 核心要点

  1. 语音上下文学习(SICL)依赖于有效的上下文示例选择,但现有方法对此探索不足。
  2. TICL利用文本嵌入KNN,通过语义上下文增强大型多模态模型的语音识别能力,无需微调。
  3. 实验表明,TICL在多种语音识别任务中显著超越零样本性能,WER降低高达84.7%。

📝 摘要(中文)

语音基础模型最近展示了执行语音上下文学习(SICL)的能力。选择有效的上下文示例对于SICL性能至关重要,但选择方法仍未得到充分探索。本文提出了用于SICL的文本嵌入KNN(TICL),这是一个简单的流程,它使用语义上下文来增强现成的(off-the-shelf)大型多模态模型的语音识别能力,而无需进行微调。在具有挑战性的自动语音识别任务中,包括口音英语、多语种语音和儿童语音,我们的方法使模型能够超越零样本性能,相对词错误率(WER)降低高达84.7%。我们进行了消融研究,以证明我们方法的稳健性和效率。

🔬 方法详解

问题定义:论文旨在解决语音上下文学习(SICL)中上下文示例选择的问题。现有方法在选择合适的上下文示例方面存在不足,导致SICL的性能受限。缺乏有效的示例选择策略是现有方法的痛点。

核心思路:论文的核心思路是利用文本嵌入KNN来选择与目标语音在语义上最相关的上下文示例。通过将语音转录文本嵌入到语义空间中,并使用KNN算法找到最相似的示例,从而提高SICL的性能。这种方法基于语义相似性,能够更准确地选择合适的上下文信息。

技术框架:TICL的整体框架包括以下几个主要阶段:1) 将目标语音和候选上下文语音进行自动语音识别(ASR),得到对应的文本转录;2) 使用预训练的文本嵌入模型(如Sentence-BERT)将文本转录嵌入到语义空间中;3) 使用KNN算法在语义空间中找到与目标语音最相似的K个上下文示例;4) 将选择的上下文示例与目标语音一起输入到大型多模态模型中进行语音识别。

关键创新:TICL的关键创新在于使用文本嵌入KNN来指导上下文示例的选择。与传统的基于语音特征或随机选择的方法相比,TICL能够更好地利用语义信息,从而选择更相关的上下文示例。这种方法无需对大型多模态模型进行微调,即可显著提高语音识别性能。

关键设计:关键设计包括:1) 使用Sentence-BERT等预训练模型进行文本嵌入,以获得高质量的语义表示;2) 使用余弦相似度作为KNN算法的距离度量,以衡量文本嵌入之间的相似性;3) 通过消融实验选择合适的K值(即选择的上下文示例数量),以平衡性能和计算成本;4) 该方法可以与各种大型多模态模型结合使用,具有良好的通用性。

📊 实验亮点

实验结果表明,TICL在多种语音识别任务中显著超越了零样本性能。在口音英语识别任务中,TICL实现了高达84.7%的相对WER降低。在多语种语音和儿童语音识别任务中,TICL也取得了显著的性能提升。消融实验验证了该方法的稳健性和效率。

🎯 应用场景

该研究成果可应用于各种语音识别场景,尤其是在口音英语、多语种语音和儿童语音等具有挑战性的任务中。通过选择合适的上下文示例,可以显著提高语音识别的准确率,从而改善人机交互体验,并为语音助手、语音翻译等应用提供更好的支持。未来,该方法还可以扩展到其他模态,例如视频上下文学习。

📄 摘要(原文)

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, including accented English, multilingual speech, and children's speech, our method enables models to surpass zero-shot performance with up to 84.7% relative WER reduction. We conduct ablation studies to show the robustness and efficiency of our method.