Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis

📄 arXiv: 2410.12867v1 📥 PDF

作者: Kaushal Attaluri, Anirudh CHVS, Sireesha Chittepu

分类: cs.CL, cs.AI

发布日期: 2024-10-13

备注: 19 pages, 6 figures, 3 tables


💡 一句话要点

利用大型语言模型进行构音障碍语音校正和多模态情感分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 构音障碍语音 大型语言模型 语音校正 情感分析 多模态融合

📋 核心要点

  1. 构音障碍严重影响患者的沟通能力和生活质量,现有方法在准确性和情感理解方面存在不足。
  2. 该论文提出利用大型语言模型,结合语音转录和情感分析,实现对构音障碍语音的准确识别和情感理解。
  3. 实验结果表明,该方法在构音障碍语音的校正和情感识别方面取得了显著进展,提升了沟通效率。

📝 摘要(中文)

本文提出了一种新颖的方法,旨在识别和翻译构音障碍语音,从而帮助患有此疾病的个体更有效地进行交流。该方法利用先进的大型语言模型进行准确的语音校正和多模态情感分析。首先,使用 OpenAI Whisper 模型将构音障碍语音转换为文本,然后使用微调的开源模型以及 GPT-4.o、LLaMA 3.1 70B 和 Mistral 8x7B 等基准模型在 Groq AI 加速器上进行句子预测。使用的数据集结合了 TORGO 数据集和 Google 语音数据,并手动标记了情感上下文。该框架能够识别幸福、悲伤、中性、惊讶、愤怒和恐惧等情感,同时以高精度从扭曲的语音中重建预期的句子。该方法展示了在构音障碍语音识别和理解方面的显著进步。

🔬 方法详解

问题定义:构音障碍是一种运动性言语障碍,导致患者语音模糊不清,难以理解。现有方法在处理构音障碍语音时,准确率较低,且缺乏对情感信息的有效分析,无法全面理解患者的意图。

核心思路:论文的核心思路是结合语音识别和自然语言处理技术,利用大型语言模型强大的语言理解和生成能力,对构音障碍语音进行校正和情感分析。通过将语音转换为文本,并利用大型语言模型进行句子预测和情感分类,从而提高识别准确率和情感理解能力。

技术框架:整体框架包含两个主要阶段:1) 语音转录阶段:使用 OpenAI Whisper 模型将构音障碍语音转换为文本。2) 句子预测和情感分析阶段:使用微调的开源模型以及 GPT-4.o、LLaMA 3.1 70B 和 Mistral 8x7B 等模型在 Groq AI 加速器上进行句子预测,并进行情感分类。数据集采用 TORGO 数据集和 Google 语音数据,并手动标记情感标签。

关键创新:该论文的关键创新在于将大型语言模型应用于构音障碍语音的校正和情感分析,并结合了语音转录和自然语言处理技术。与传统方法相比,该方法能够更准确地识别和理解构音障碍语音,并提取情感信息。

关键设计:论文的关键设计包括:1) 使用 OpenAI Whisper 模型进行语音转录,该模型具有较强的鲁棒性和准确性。2) 使用微调的开源模型以及 GPT-4.o、LLaMA 3.1 70B 和 Mistral 8x7B 等模型进行句子预测,这些模型具有强大的语言理解和生成能力。3) 手动标记数据集的情感标签,用于训练情感分类模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过结合 OpenAI Whisper 模型和大型语言模型,在构音障碍语音识别和情感分析方面取得了显著进展。实验结果表明,该方法能够以高精度从扭曲的语音中重建预期的句子,并准确识别情感,为构音障碍患者的沟通提供了更有效的解决方案。

🎯 应用场景

该研究成果可应用于辅助沟通设备、语音治疗工具和情感识别系统等领域,帮助构音障碍患者更有效地进行交流,提高生活质量。未来,该技术有望进一步发展,实现更智能、更个性化的语音辅助服务,促进社会融合。

📄 摘要(原文)

Dysarthria is a motor speech disorder caused by neurological damage that affects the muscles used for speech production, leading to slurred, slow, or difficult-to-understand speech. It affects millions of individuals worldwide, including those with conditions such as stroke, traumatic brain injury, cerebral palsy, Parkinsons disease, and multiple sclerosis. Dysarthria presents a major communication barrier, impacting quality of life and social interaction. This paper introduces a novel approach to recognizing and translating dysarthric speech, empowering individuals with this condition to communicate more effectively. We leverage advanced large language models for accurate speech correction and multimodal emotion analysis. Dysarthric speech is first converted to text using OpenAI Whisper model, followed by sentence prediction using fine-tuned open-source models and benchmark models like GPT-4.o, LLaMA 3.1 70B and Mistral 8x7B on Groq AI accelerators. The dataset used combines the TORGO dataset with Google speech data, manually labeled for emotional context. Our framework identifies emotions such as happiness, sadness, neutrality, surprise, anger, and fear, while reconstructing intended sentences from distorted speech with high accuracy. This approach demonstrates significant advancements in the recognition and interpretation of dysarthric speech.