Advancing Multi-talker ASR Performance with Large Language Models
作者: Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu
分类: eess.AS, cs.AI
发布日期: 2024-08-30
备注: 8 pages, accepted by IEEE SLT 2024
💡 一句话要点
提出基于LLM的SOT方法,提升多说话人语音识别性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多说话人语音识别 大型语言模型 串行化输出训练 语音编码器 预训练模型
📋 核心要点
- 多说话人语音识别面临重叠语音和长上下文依赖的挑战,传统AED模型难以有效建模。
- 利用预训练语音编码器和LLM,结合SOT训练策略,提升多说话人场景下的语音识别能力。
- 实验表明,该方法在LibriMix和AMI数据集上均优于传统AED模型,并在AMI上达到SOTA。
📝 摘要(中文)
在会话场景中识别多个说话人的重叠语音是自动语音识别(ASR)领域最具挑战性的问题之一。串行化输出训练(SOT)是一种解决多说话人ASR的经典方法,其思想是根据多个说话人语音的发射时间连接他们的转录文本以进行训练。然而,SOT风格的转录文本源于连接对话中的多个相关话语,因此非常依赖于长上下文建模。与传统方法主要强调基于注意力机制的编码器-解码器(AED)架构中的编码器性能相比,利用大型语言模型(LLM)并发挥预训练解码器能力的新方法可能更适合这种复杂且具有挑战性的场景。本文提出了一种基于LLM的SOT方法用于多说话人ASR,利用预训练的语音编码器和LLM,并使用适当的策略在多说话人数据集上对它们进行微调。实验结果表明,我们的方法在模拟数据集LibriMix上超越了传统的基于AED的方法,并在真实世界数据集AMI的评估集上实现了最先进的性能,优于先前工作中用1000倍以上监督数据训练的AED模型。
🔬 方法详解
问题定义:论文旨在解决多说话人语音识别中的重叠语音识别问题。现有方法,特别是基于注意力机制的编码器-解码器(AED)模型,在处理长上下文依赖和区分多个说话人语音方面存在局限性,尤其是在SOT训练模式下,对长程依赖建模能力不足。
核心思路:核心思路是利用大型语言模型(LLM)强大的语言建模能力,特别是其预训练解码器的优势,来更好地处理SOT训练产生的大量上下文信息。通过结合预训练的语音编码器和LLM,并进行微调,可以有效地提升多说话人语音识别的性能。
技术框架:整体框架包含两个主要模块:预训练的语音编码器和大型语言模型(LLM)。语音编码器负责将输入的语音信号转换为高维特征表示,LLM则负责对这些特征进行解码,生成文本转录。SOT训练策略用于生成训练数据,其中多个说话人的转录文本根据其语音的发射时间进行串联。
关键创新:关键创新在于将大型语言模型(LLM)引入到多说话人语音识别的SOT训练框架中。与传统方法主要依赖于增强编码器的性能不同,该方法充分利用了LLM预训练解码器的语言建模能力,从而更好地处理长上下文依赖和区分多个说话人的语音。
关键设计:论文的关键设计包括:1) 选择合适的预训练语音编码器和LLM;2) 设计有效的微调策略,以使LLM适应多说话人语音识别任务;3) 使用SOT训练数据进行训练,并优化损失函数以提高识别准确率。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。
📊 实验亮点
实验结果表明,该方法在LibriMix数据集上超越了传统的基于AED的方法,并在真实世界数据集AMI的评估集上实现了最先进的性能。值得注意的是,该方法优于先前工作中用1000倍以上监督数据训练的AED模型,显示出LLM在多说话人语音识别方面的巨大潜力。
🎯 应用场景
该研究成果可应用于各种需要处理多说话人语音的场景,如会议记录、访谈转录、智能客服等。通过提高多说话人语音识别的准确率,可以提升人机交互的效率和用户体验,并为语音分析和理解提供更可靠的基础。
📄 摘要(原文)
Recognizing overlapping speech from multiple speakers in conversational scenarios is one of the most challenging problem for automatic speech recognition (ASR). Serialized output training (SOT) is a classic method to address multi-talker ASR, with the idea of concatenating transcriptions from multiple speakers according to the emission times of their speech for training. However, SOT-style transcriptions, derived from concatenating multiple related utterances in a conversation, depend significantly on modeling long contexts. Therefore, compared to traditional methods that primarily emphasize encoder performance in attention-based encoder-decoder (AED) architectures, a novel approach utilizing large language models (LLMs) that leverages the capabilities of pre-trained decoders may be better suited for such complex and challenging scenarios. In this paper, we propose an LLM-based SOT approach for multi-talker ASR, leveraging pre-trained speech encoder and LLM, fine-tuning them on multi-talker dataset using appropriate strategies. Experimental results demonstrate that our approach surpasses traditional AED-based methods on the simulated dataset LibriMix and achieves state-of-the-art performance on the evaluation set of the real-world dataset AMI, outperforming the AED model trained with 1000 times more supervised data in previous works.