Multimodal LLMs are not all you need for Pediatric Speech Language Pathology
作者: Darren Fürst, Sebastian Steindl, Ulrich Schäfer
分类: cs.CL
发布日期: 2026-04-29
💡 一句话要点
针对儿童言语病理,提出基于语音表征模型的SSD分类方法,性能优于多模态LLM。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童言语病理 言语发音障碍 语音表征模型 级联分类 数据增强
📋 核心要点
- 现有方法在儿童言语病理的SSD分类任务中面临挑战,特别是数据偏差和模型泛化能力不足。
- 论文提出一种基于语音表征模型(SRM)的级联分类方法,并结合数据增强技术,以减轻偏差并提升性能。
- 实验结果表明,所提出的SRM方法在多个临床任务上显著优于基于LLM的现有技术,并公开模型和代码。
📝 摘要(中文)
言语发音障碍(SSD)影响大约百分之五的儿童,但言语病理学家面临着严重的人员短缺和难以管理的病例。本文在细粒度的多任务SLPHelmUltraSuitePlus基准上测试了SSD分类的分层方法。我们提出了一种从二元分类到类型和症状分类的级联方法。通过微调语音表征模型(SRM)并使用有针对性的数据增强,我们减轻了先前工作中发现的偏差,并改进了基准测试中的所有临床任务。我们还使用数据增强方法处理自动语音识别(ASR)。结果表明,SRM在所有评估任务中始终大幅优于基于LLM的最新技术。我们发布了我们的模型和代码,以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决儿童言语发音障碍(SSD)的自动分类问题。现有方法,特别是基于大型语言模型(LLM)的方法,在处理该任务时表现出数据偏差,并且在细粒度的临床任务上性能不足。此外,言语病理学家面临着人员短缺和工作量过大的问题,因此需要更有效的自动化诊断工具。
核心思路:论文的核心思路是利用专门的语音表征模型(SRM)来提取更具判别性的语音特征,并结合级联分类策略来提高分类精度。通过针对性的数据增强,可以减轻数据偏差,提高模型的泛化能力。这种方法避免了直接依赖LLM,而是专注于语音信号本身的特征提取和分析。
技术框架:整体框架包括以下几个阶段:1) 语音数据预处理和特征提取,使用SRM模型将语音信号转换为高维特征向量。2) 二元分类,判断是否存在SSD。3) 类型分类,确定SSD的具体类型。4) 症状分类,识别SSD的具体症状。每个阶段都使用微调后的SRM模型进行分类。此外,还包括一个使用数据增强的自动语音识别(ASR)模块,用于辅助语音分析。
关键创新:最重要的技术创新点在于使用SRM模型进行特征提取和分类,并结合级联分类策略。与直接使用LLM相比,SRM模型更专注于语音信号的特征表示,能够更好地捕捉与SSD相关的细微语音差异。级联分类策略将复杂的分类任务分解为多个简单的子任务,提高了分类精度和效率。
关键设计:论文使用了SLPHelmUltraSuitePlus基准数据集,并针对该数据集设计了特定的数据增强策略,例如语音速度调整、音量调整和噪声添加。SRM模型使用了预训练的语音模型,并通过微调来适应SSD分类任务。损失函数使用了交叉熵损失函数,并结合了正则化项来防止过拟合。级联分类的每个阶段都使用了不同的SRM模型,并根据具体任务进行了优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的基于SRM的方法在SLPHelmUltraSuitePlus基准测试的所有临床任务中,均大幅优于基于LLM的最新技术。具体的性能提升数据在论文中给出,表明SRM模型能够更有效地捕捉与SSD相关的语音特征,并减轻数据偏差的影响。数据增强策略也显著提高了模型的泛化能力。
🎯 应用场景
该研究成果可应用于开发自动化的儿童言语病理诊断工具,辅助言语病理学家进行诊断和治疗方案制定,尤其是在资源匮乏的地区。此外,该技术还可以用于语音识别、语音合成等领域,提高语音处理系统的性能和鲁棒性。未来,该研究可以扩展到其他类型的语音障碍诊断。
📄 摘要(原文)
Speech Sound Disorders (SSD) affect roughly five percent of children, yet speech-language pathologists face severe staffing shortages and unmanageable caseloads. We test a hierarchical approach to SSD classification on the granular multi-task SLPHelmUltraSuitePlus benchmark. We propose a cascading approach from binary classification to type, and symptom classification. By fine-tuning Speech Representation Models (SRM), and using targeted data augmentation we mitigate biases found by previous works, and improve upon all clinical tasks in the benchmark. We also treat Automatic Speech Recognition (ASR) with our data augmentation approach. Our results demonstrate that SRM consistently outperform the LLM-based state-of-the-art across all evaluated tasks by a large margin. We publish our models and code to foster future research.