Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs

📄 arXiv: 2409.16005v1 📥 PDF

作者: Yang Yuhang, Peng Yizhou, Eng Siong Chng, Xionghu Zhong

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-09-24

备注: Accepted by ISCSLP2024-Special session-Speech Processing in LLM Era


💡 一句话要点

提出基于拼音-汉字预训练的大语言模型,提升语音识别性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大语言模型 拼音-汉字预训练 LoRA微调 AISHELL-1 语音模态 多模态学习

📋 核心要点

  1. 现有方法难以有效利用大语言模型(LLM)在多模态理解方面的优势来提升语音识别(ASR)性能。
  2. 论文提出在LLM中引入拼音-汉字预训练,使模型能够先学习从发音特征生成文本,再处理语音数据。
  3. 实验结果表明,该方法在AISHELL-1语料库上实现了显著的性能提升,最高达到19.0%的相对改进。

📝 摘要(中文)

本文提出了一种新的训练方法,旨在提升大语言模型(LLM)在自动语音识别(ASR)任务中的性能。该方法首先预训练LLM,使其能够从拼音嵌入序列(代表发音特征)生成相应的汉字。这一步骤使LLM在接触真实语音数据之前,就能适应从发音特征生成文本。此外,我们还微调LoRA参数,以增强LLM对语音模态信息的理解。在AISHELL-1语料库上的实验结果表明,与没有拼音-汉字预训练的基线相比,我们的方法在ASR任务中取得了9.5%的相对改进。此外,结合辅助文本数据进行拼音-汉字预训练,进一步提升了性能,实现了19.0%的相对改进。

🔬 方法详解

问题定义:论文旨在解决如何有效利用大语言模型(LLM)提升自动语音识别(ASR)性能的问题。现有方法难以充分利用LLM在多模态理解方面的能力,直接将语音特征输入LLM进行识别效果不佳。痛点在于LLM缺乏对语音特征到文本的映射能力。

核心思路:论文的核心思路是让LLM先学习拼音到汉字的转换,从而建立语音特征和文本之间的桥梁。通过预训练,LLM能够更好地理解语音特征,并在后续的语音识别任务中表现更佳。这种方法类似于人类学习语言的过程,先学习发音,再学习文字。

技术框架:整体框架包含两个主要阶段:1) 拼音-汉字预训练阶段:使用拼音嵌入序列作为输入,训练LLM生成对应的汉字序列。可以使用额外的文本数据来增强预训练效果。2) 语音识别微调阶段:使用语音数据微调LLM,并采用LoRA(Low-Rank Adaptation)方法来高效地调整模型参数,增强LLM对语音模态信息的理解。

关键创新:最重要的技术创新点在于引入了拼音-汉字预训练。与直接使用语音数据训练LLM相比,这种方法能够使LLM更好地适应语音特征,从而提高语音识别的准确率。本质区别在于,该方法将语音识别任务分解为两个阶段,先学习发音到文字的映射,再进行语音识别。

关键设计:在拼音-汉字预训练阶段,使用了拼音嵌入序列作为输入,目标是生成对应的汉字序列。可以使用交叉熵损失函数来优化模型。在语音识别微调阶段,使用了LoRA方法来高效地调整模型参数。LoRA通过引入低秩矩阵来更新模型参数,从而减少了需要训练的参数量,提高了训练效率。具体的LoRA参数设置(例如秩的大小)需要根据实验结果进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,与没有拼音-汉字预训练的基线相比,该方法在AISHELL-1语料库上取得了9.5%的相对改进。此外,结合辅助文本数据进行拼音-汉字预训练,进一步提升了性能,实现了19.0%的相对改进。这些结果表明,该方法能够显著提升LLM在语音识别任务中的性能。

🎯 应用场景

该研究成果可应用于各种语音识别场景,例如语音助手、智能客服、语音搜索等。通过提升语音识别的准确率,可以改善用户体验,提高工作效率。未来,该方法还可以扩展到其他语言和领域,例如语音翻译、语音合成等。

📄 摘要(原文)

The integration of large language models (LLMs) with pre-trained speech models has opened up new avenues in automatic speech recognition (ASR). While LLMs excel in multimodal understanding tasks, effectively leveraging their capabilities for ASR remains a significant challenge. This paper presents a novel training approach to enhance LLM performance in ASR tasks. We propose pre-training LLMs on Pinyin embedding sequences, which represent pronunciation features, to generate corresponding Chinese characters. This step enables the LLM to adapt to generating text from pronunciation features before encountering real speech data. Furthermore, we fine-tune the LoRA parameters to enhance the LLM's understanding of speech modality information. In AISHELL-1 corpus, our approach yields a 9.5% relative improvement in ASR tasks compared to the baseline without Pinyi-to-Character pre-training. Additionally, incorporating auxiliary text data for Pinyi-to-Character pre-training further boosts performance, achieving a 19.0% relative improvement.