Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning
作者: Chirag Nagpal, Subhashini Venugopalan, Jimmy Tobin, Marilyn Ladewig, Katherine Heller, Katrin Tomanek
分类: eess.AS, cs.CL, cs.LG, cs.SD
发布日期: 2024-12-25
备注: Accepted at ICASSP 2025
💡 一句话要点
提出基于强化学习微调的LLM语音识别方法,提升对病理语音的识别能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 大型语言模型 强化学习 病理语音 微调 音频Token RLHF
📋 核心要点
- 现有语音识别系统在处理病理语音时面临挑战,因为病理语音具有高度的变异性和不规则性。
- 该论文提出使用强化学习微调大型语言模型,使其更好地适应病理语音,从而提高识别准确率。
- 实验结果表明,基于强化学习的微调方法在适应不同环境下的语音时,性能优于传统的监督微调方法。
📝 摘要(中文)
本文提出了一种能够处理语音输入的大型语言模型(LLM),并通过基于人类偏好的强化学习(RLHF)对其进行进一步调整,使其比传统的微调方法更好地适应病理语音。该方法将LLM词汇表中低频文本token替换为音频token,并通过在带有转录的语音数据上进行微调,使模型能够识别语音。然后,使用基于句法和语义准确性度量的强化学习,进一步泛化LLM以识别病理语音。虽然由此产生的LLM在语音识别方面并未优于现有系统,但研究发现,使用自定义奖励的强化学习调整比语言模型的监督微调产生了明显更好的性能,特别是在适应不同环境下的语音时。这为使用大型语言模型进行语音识别提供了一种引人注目的替代调整策略。
🔬 方法详解
问题定义:论文旨在解决病理语音识别的问题。现有语音识别系统在处理病理语音时,由于其发音不清晰、语速变化大等特点,识别准确率较低。传统的微调方法难以有效适应病理语音的复杂性和多样性。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语言建模能力,并通过强化学习(RL)进行微调,使其更好地适应病理语音。通过强化学习,模型可以根据自定义的奖励函数,学习到更符合人类偏好的语音识别结果。
技术框架:整体框架包含以下几个主要阶段:1) LLM初始化:选择一个预训练的LLM作为基础模型。2) 音频Token嵌入:将LLM词汇表中低频文本token替换为音频token,使模型能够处理语音输入。3) 监督微调:使用带有转录的语音数据对LLM进行微调,使其初步具备语音识别能力。4) 强化学习微调:使用强化学习算法,根据句法和语义准确性等自定义奖励函数,进一步优化模型,使其更好地适应病理语音。
关键创新:该论文的关键创新在于使用强化学习微调LLM以适应病理语音。与传统的监督微调相比,强化学习能够更好地利用人类反馈和自定义奖励函数,从而使模型学习到更符合人类偏好的语音识别结果。此外,将低频文本token替换为音频token也是一个创新点,使得LLM可以直接处理语音输入。
关键设计:关键设计包括:1) 奖励函数设计:奖励函数基于句法和语义准确性度量,用于指导强化学习过程。2) 音频Token嵌入方式:具体如何将音频特征转换为token,以及如何与LLM的文本token进行融合。3) 强化学习算法选择:选择合适的强化学习算法(例如,PPO、DQN等)进行微调。4) 超参数设置:包括学习率、batch size、训练轮数等超参数的设置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用强化学习微调的LLM在适应不同环境下的语音时,性能优于传统的监督微调方法。虽然该方法在整体语音识别性能上尚未超越现有系统,但在病理语音识别方面具有显著的潜力。具体性能提升幅度未知,但论文强调了强化学习微调的有效性。
🎯 应用场景
该研究成果可应用于医疗健康领域,例如辅助诊断、康复训练等。通过提高病理语音的识别准确率,可以帮助医生更准确地了解患者的病情,并为患者提供更有效的治疗方案。此外,该技术还可以应用于语音助手、智能家居等领域,为残疾人士提供更便捷的服务。
📄 摘要(原文)
We introduce a large language model (LLM) capable of processing speech inputs and show that tuning it further with reinforcement learning on human preference (RLHF) enables it to adapt better to disordered speech than traditional fine-tuning. Our method replaces low-frequency text tokens in an LLM's vocabulary with audio tokens and enables the model to recognize speech by fine-tuning it on speech with transcripts. We then use RL with rewards based on syntactic and semantic accuracy measures generalizing the LLM further to recognize disordered speech. While the resulting LLM does not outperform existing systems for speech recognition, we find that tuning with reinforcement learning using custom rewards leads to substantially better performance than supervised fine-tuning of the language model, specifically when adapting to speech in a different setting. This presents a compelling alternative tuning strategy for speech recognition using large language models.