When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition
作者: Pehuén Moure, Niclas Pokel, Bilal Bounajma, Yingqiang Gao, Roman Boehringer, Longbiao Cheng, Shih-Chii Liu
分类: cs.AI, cs.CL, eess.AS
发布日期: 2026-05-04
💡 一句话要点
针对构音障碍语音识别,研究表明现有语音-语言模型未能有效利用多模态临床上下文信息。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 构音障碍语音识别 语音-语言模型 临床上下文 LoRA微调 提示工程
📋 核心要点
- 现有语音-语言模型在构音障碍语音识别中表现不佳,无法有效利用临床上下文信息。
- 论文提出利用诊断标签、语音等级和临床描述等上下文信息,通过提示工程和微调来提升识别精度。
- 实验表明,现有模型对上下文提示不敏感,但通过LoRA微调,WER相对降低52%,尤其对唐氏综合征患者有效。
📝 摘要(中文)
自动语音识别(ASR)系统在构音障碍和其他非典型语音上仍然表现脆弱。最近的语音-语言模型提出了通过在推理时利用额外的临床上下文来提高性能的可能性,但尚不清楚这些模型是否能够利用这些信息。我们引入了一个基于语音可访问性项目(SAP)数据集的基准,用于测试诊断标签、临床医生评估的语音等级以及逐渐丰富的临床描述是否能提高构音障碍语音的转录准确率。在九个模型的匹配比较中,我们发现当前的模型并没有有效地利用这些上下文:诊断信息和临床细节提示几乎没有带来改进,反而经常降低词错误率(WER)。我们通过上下文相关的微调来补充提示分析,表明使用混合临床提示格式的LoRA适配实现了0.066的WER,相对于冻结基线降低了52%,同时保持了在没有上下文时的性能。子组分析显示了唐氏综合征和轻度患者的显著收益。这些结果阐明了当前模型的不足之处,并为衡量更具包容性的ASR的进展提供了一个测试平台。
🔬 方法详解
问题定义:论文旨在解决构音障碍语音识别中,现有自动语音识别(ASR)系统性能不佳的问题。现有方法,特别是语音-语言模型,理论上可以通过利用额外的临床上下文信息来提高性能,但实际上这些模型未能有效利用这些信息。现有的痛点在于,即使提供了诊断标签、临床医生评估的语音等级以及详细的临床描述,ASR的准确率并没有显著提升,甚至可能下降。
核心思路:论文的核心思路是评估和改进语音-语言模型利用临床上下文信息进行构音障碍语音识别的能力。通过构建一个基准数据集,并采用提示工程和上下文相关的微调方法,来探究模型如何更好地利用这些信息。核心在于通过LoRA微调,使模型能够学习到临床上下文与语音特征之间的关联,从而提高识别准确率。
技术框架:整体框架包括以下几个主要阶段:1) 数据集构建:基于Speech Accessibility Project (SAP)数据集,构建包含构音障碍语音和相关临床上下文信息的基准数据集。2) 模型评估:在多个语音-语言模型上进行评估,测试模型在不同临床上下文提示下的性能。3) 提示工程:设计不同的临床上下文提示,包括诊断标签、语音等级和临床描述,并评估其对识别准确率的影响。4) 上下文相关的微调:使用LoRA(Low-Rank Adaptation)方法对模型进行微调,使其能够更好地利用临床上下文信息。5) 子组分析:针对不同的构音障碍类型和严重程度进行子组分析,评估模型的泛化能力。
关键创新:论文的关键创新在于:1) 揭示了现有语音-语言模型在构音障碍语音识别中未能有效利用临床上下文信息的问题。2) 提出了使用LoRA进行上下文相关的微调方法,显著提高了识别准确率,尤其是在唐氏综合征患者的语音识别中。3) 构建了一个基准数据集,为未来研究提供了一个测试平台。
关键设计:在上下文相关的微调中,使用了LoRA(Low-Rank Adaptation)方法,通过学习低秩矩阵来调整预训练模型的参数,从而减少了计算量和存储需求。使用了混合临床提示格式,将不同的临床上下文信息组合在一起,以提高模型的鲁棒性。损失函数使用了标准的交叉熵损失函数,优化器使用了AdamW优化器,学习率设置为一个较小的值,以避免过拟合。
📊 实验亮点
实验结果表明,现有模型对临床上下文提示不敏感,甚至可能降低词错误率。然而,通过LoRA微调,模型在构音障碍语音识别任务上取得了显著提升,WER相对降低了52%,达到0.066。子组分析显示,对于唐氏综合征和轻度患者,性能提升尤为明显。这些结果表明,通过有效的微调策略,语音-语言模型可以更好地利用临床上下文信息,从而提高构音障碍语音识别的准确率。
🎯 应用场景
该研究成果可应用于开发更具包容性的语音识别系统,特别是在医疗健康领域,例如辅助诊断、远程医疗和康复治疗。通过提高构音障碍患者的语音识别准确率,可以帮助他们更好地与他人交流,提高生活质量。未来,该技术还可以扩展到其他非典型语音的识别,例如口吃和腭裂语音。
📄 摘要(原文)
Automatic speech recognition (ASR) systems remain brittle on dysarthric and other atypical speech. Recent audio-language models raise the possibility of improving performance by conditioning on additional clinical context at inference time, but it is unclear whether these models can make use of such information. We introduce a benchmark built on the Speech Accessibility Project (SAP) dataset that tests whether diagnosis labels, clinician-derived speech ratings, and progressively richer clinical descriptions improve transcription accuracy for dysarthric speech. Across matched comparisons on nine models, we find that current models do not meaningfully use this context: diagnosis-informed and clinically detailed prompts yield negligible improvements and often degrade word error rate. We complement the prompting analysis with context-dependent fine-tuning, showing that LoRA adaptation with a mixture of clinical prompt formats achieves a WER of 0.066, a 52% relative reduction over the frozen baseline, while preserving performance when context is unavailable. Subgroup analyses reveal significant gains for Down syndrome and mild-severity speakers. These results clarify where current models fall short and provide a testbed for measuring progress toward more inclusive ASR.