Design, construction and evaluation of emotional multimodal pathological speech database

📄 arXiv: 2312.08998v1 📥 PDF

作者: Ting Zhu, Shufei Duan, Huizhi Liang, Wei Zhang

分类: eess.AS, cs.AI, cs.SD, eess.SP

发布日期: 2023-12-14


💡 一句话要点

构建情感多模态病理语音数据库,用于研究构音障碍患者的情感表达

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 病理语音 构音障碍 多模态数据库 语音分析 声门数据 微信小程序

📋 核心要点

  1. 现有情感病理语音数据库的缺乏,阻碍了对构音障碍患者情感表达状态的研究。
  2. 构建包含多角度信息的中文多模态情感病理语音数据库,包括健康人和构音障碍患者。
  3. 实验结果表明,疾病对情感表达有影响,语音和声门数据的自动识别准确率存在差异。

📝 摘要(中文)

本文构建了首个中文多模态情感病理语音数据库,旨在解决现有情感病理数据库匮乏的问题,该问题是研究构音障碍患者情感表达状态的关键障碍之一。该数据库包含29名健康对照者和39名不同程度运动性构音障碍患者,他们表达快乐、悲伤、愤怒和中性四种情感。所有情感语音都通过开发的微信小程序标注了清晰度、类型和离散维度情感。主观分析验证了情感辨别准确率、语音清晰度、效价-唤醒空间分布以及SCL-90与疾病严重程度之间的相关性。在语音和声门数据上进行的自动识别测试表明,音频数据中,健康对照组的平均准确率为78%,患者组为60%;声门数据中,健康对照组为51%,患者组为38%,表明疾病对情感表达有影响。

🔬 方法详解

问题定义:目前缺乏足够的情感病理语音数据库,这限制了对构音障碍患者情感表达能力的研究。现有方法难以准确评估和识别这些患者的情感状态,因为病理语音的特性与正常语音存在显著差异。因此,需要一个专门设计的数据库来支持相关研究。

核心思路:本研究的核心思路是构建一个包含多种情感、多种模态(语音、声门数据等)的病理语音数据库,并进行主观和客观的评估。通过收集健康人和构音障碍患者的情感语音,并进行详细的标注,为后续的情感识别和分析提供数据基础。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 招募参与者:包括健康对照组和不同程度的运动性构音障碍患者。2) 情感诱导:引导参与者表达快乐、悲伤、愤怒和中性四种情感。3) 数据采集:记录参与者的语音和声门数据。4) 数据标注:使用开发的微信小程序对语音数据进行清晰度、情感类型和离散维度情感的标注。5) 主观评估:通过情感辨别准确率、语音清晰度、效价-唤醒空间分布以及SCL-90与疾病严重程度之间的相关性进行主观分析。6) 客观评估:在语音和声门数据上进行自动情感识别测试。

关键创新:该研究的关键创新在于构建了首个中文多模态情感病理语音数据库,该数据库包含多角度信息,包括语音、声门数据以及主观标注。此外,还开发了微信小程序用于数据标注,提高了标注效率和准确性。

关键设计:在数据采集方面,采用了标准化的情感诱导方法,确保情感表达的一致性。在数据标注方面,使用了清晰度、情感类型和离散维度情感等多维度的标注体系,为后续研究提供了更丰富的信息。在自动情感识别方面,分别在语音和声门数据上进行了测试,并比较了健康对照组和患者组的识别结果。

📊 实验亮点

实验结果表明,在音频数据上,健康对照组的平均情感识别准确率为78%,患者组为60%,而在声门数据上,健康对照组为51%,患者组为38%。这些数据表明,构音障碍疾病显著影响了情感表达,并且语音和声门数据在情感识别中具有不同的表现。该数据库和实验结果为进一步研究病理语音的情感特征提供了重要依据。

🎯 应用场景

该研究成果可应用于辅助诊断和治疗构音障碍患者的情感表达障碍。通过分析患者的情感语音特征,可以帮助医生了解患者的情感状态,制定更有效的治疗方案。此外,该数据库还可以用于开发情感识别系统,提高人机交互的自然性和情感感知能力。未来,该研究可以扩展到其他类型的病理语音,为更广泛的语音疾病研究提供支持。

📄 摘要(原文)

The lack of an available emotion pathology database is one of the key obstacles in studying the emotion expression status of patients with dysarthria. The first Chinese multimodal emotional pathological speech database containing multi-perspective information is constructed in this paper. It includes 29 controls and 39 patients with different degrees of motor dysarthria, expressing happy, sad, angry and neutral emotions. All emotional speech was labeled for intelligibility, types and discrete dimensional emotions by developed WeChat mini-program. The subjective analysis justifies from emotion discrimination accuracy, speech intelligibility, valence-arousal spatial distribution, and correlation between SCL-90 and disease severity. The automatic recognition tested on speech and glottal data, with average accuracy of 78% for controls and 60% for patients in audio, while 51% for controls and 38% for patients in glottal data, indicating an influence of the disease on emotional expression.