CMT-LLM: Contextual Multi-Talker ASR Utilizing Large Language Models

📄 arXiv: 2506.12059v1 📥 PDF

作者: Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

分类: eess.AS, cs.AI, cs.CL, cs.SD

发布日期: 2025-05-31

备注: Accepted by INTERSPEECH 2025


💡 一句话要点

CMT-LLM:融合上下文偏置的多说话人语音识别,利用大语言模型提升性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多说话人语音识别 上下文偏置 大语言模型 语音编码器 罕见词识别

📋 核心要点

  1. 传统ASR系统在处理多说话人重叠语音和罕见词识别时,通常采用分离的方法,导致在复杂场景下性能受限。
  2. 本文提出CMT-LLM框架,将多说话人语音识别和上下文偏置统一建模,利用LLM的强大能力提升识别效果。
  3. 实验表明,该方法在LibriMix和AMI SDM数据集上均优于传统方法,尤其在罕见词识别方面有显著提升。

📝 摘要(中文)

本文提出了一种统一的框架,将多说话人重叠语音识别和上下文偏置整合到一个任务中。该方法结合了预训练语音编码器和大语言模型(LLM),并采用优化的微调策略。此外,还引入了一种两阶段过滤算法,从大型偏置列表中高效识别相关的罕见词,并将其整合到LLM的提示输入中,从而增强罕见词的识别能力。实验结果表明,该方法优于传统的上下文偏置方法,在LibriMix数据集上实现了7.9%的WER,在AMI SDM数据集上,当偏置大小为1000时,实现了32.9%的WER,证明了其在复杂语音场景中的有效性。

🔬 方法详解

问题定义:现有的自动语音识别(ASR)系统在处理真实场景时,面临多说话人语音重叠和罕见词(如技术术语)识别的挑战。传统方法通常将多说话人语音识别和上下文偏置分别处理,无法有效利用上下文信息,导致在复杂场景下性能下降。

核心思路:本文的核心思路是将多说话人重叠语音识别和上下文偏置整合到一个统一的任务框架中。通过利用大语言模型(LLM)强大的语言建模能力,将上下文信息融入到语音识别过程中,从而提高识别准确率,尤其是在罕见词的识别方面。

技术框架:CMT-LLM框架主要包含以下几个模块:1) 预训练语音编码器:用于提取语音特征。2) 大语言模型(LLM):作为主要的语言模型,负责语音到文本的转换,并融入上下文信息。3) 两阶段过滤算法:用于从大型偏置列表中筛选出相关的罕见词,并将其作为提示输入到LLM中。整体流程是,首先使用语音编码器提取语音特征,然后使用两阶段过滤算法筛选出相关罕见词,最后将语音特征和罕见词信息输入到LLM中进行语音识别。

关键创新:该方法的主要创新点在于将多说话人语音识别和上下文偏置统一建模,并利用LLM的强大能力进行语音识别。与传统方法相比,该方法能够更好地利用上下文信息,提高识别准确率,尤其是在罕见词的识别方面。此外,两阶段过滤算法能够高效地从大型偏置列表中筛选出相关罕见词,降低计算复杂度。

关键设计:在模型训练方面,采用了优化的微调策略,以充分利用预训练语音编码器和LLM的知识。两阶段过滤算法的具体实现细节未知,但其目标是从大型偏置列表中高效筛选出与当前语音内容相关的罕见词。损失函数和网络结构等具体技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CMT-LLM方法在LibriMix数据集上实现了7.9%的WER,在AMI SDM数据集上,当偏置大小为1000时,实现了32.9%的WER。这些结果显著优于传统的上下文偏置方法,证明了该方法在复杂语音场景下的有效性。尤其是在罕见词识别方面,该方法取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于各种需要处理复杂语音场景的领域,例如:会议记录、法庭录音、客户服务等。通过提高多说话人语音识别和罕见词识别的准确率,可以有效提升相关应用的用户体验和工作效率。未来,该技术有望在智能助手、语音搜索等领域发挥更大的作用。

📄 摘要(原文)

In real-world applications, automatic speech recognition (ASR) systems must handle overlapping speech from multiple speakers and recognize rare words like technical terms. Traditional methods address multi-talker ASR and contextual biasing separately, limiting performance in complex scenarios. We propose a unified framework that combines multi-talker overlapping speech recognition and contextual biasing into a single task. Our ASR method integrates pretrained speech encoders and large language models (LLMs), using optimized finetuning strategies. We also introduce a two-stage filtering algorithm to efficiently identify relevant rare words from large biasing lists and incorporate them into the LLM's prompt input, enhancing rare word recognition. Experiments show that our approach outperforms traditional contextual biasing methods, achieving a WER of 7.9% on LibriMix and 32.9% on AMI SDM when the biasing size is 1,000, demonstrating its effectiveness in complex speech scenarios.