Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations

作者: Whenty Ariyanti, Kuan-Yu Chen, Sabato Marco Siniscalchi, Hsin-Min Wang, Yu Tsao

分类: cs.SD, cs.LG, eess.AS

发布日期: 2025-05-27 (更新: 2025-12-11)

💡 一句话要点

提出VOQANet+，结合底层声学特征与语音基础模型表征，提升病理嗓音评估的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 病理嗓音评估 语音质量评估 语音基础模型 深度学习 声学特征

📋 核心要点

传统病理嗓音评估依赖专家主观评价，存在评估者间差异，缺乏客观性。
VOQANet+结合语音基础模型嵌入和底层声学特征，利用深度学习框架进行语音质量评估。
实验表明，VOQANet+在噪声环境下表现出更强的鲁棒性，且句子级别评估优于元音级别。

📝 摘要（中文）

感知语音质量评估在诊断和监测语音障碍中起着至关重要的作用。传统方法，如语音共识听觉感知评估（CAPE-V）和等级、粗糙度、气息声、无力感和紧张度（GRBAS）量表，依赖于专家评估者，容易出现评估者间差异，因此需要客观的解决方案。本研究引入了语音质量评估网络（VOQANet），这是一种深度学习框架，它采用注意力机制和语音基础模型（SFM）嵌入来提取高层特征。为了进一步提高性能，我们提出了VOQANet+，它将自监督SFM嵌入与低层声学描述符（即抖动、闪烁和谐波噪声比（HNR））相结合。与之前仅关注基于元音的发声的方法（PVQD-A）不同，我们的模型在元音级别和句子级别的语音（PVQD-S）上进行评估，以评估泛化能力。实验结果表明，基于句子的输入产生更高的准确率，尤其是在患者级别。总体而言，VOQANet在CAPE-V和GRBAS维度上的均方根误差（RMSE）和Pearson相关系数方面始终优于基线模型，而VOQANet+实现了更大的性能提升。此外，VOQANet+在噪声条件下保持一致的性能，表明增强了在现实世界和远程医疗应用中的鲁棒性。这项工作突出了结合SFM嵌入和低层特征对于准确和鲁棒的病理嗓音评估的价值。

🔬 方法详解

问题定义：论文旨在解决病理嗓音评估中主观性强、鲁棒性差的问题。现有方法依赖专家听觉感知，易受主观因素影响，且在噪声环境下性能下降。

核心思路：论文的核心思路是将语音基础模型（SFM）提取的高层语义特征与传统的低层声学特征相结合，利用深度学习模型自动学习语音质量的评估标准。这种结合旨在利用SFM的泛化能力和低层特征的细节信息，提高评估的准确性和鲁棒性。

技术框架：VOQANet+模型主要包含以下几个模块：1) 语音输入：可以是元音级别的语音片段或句子级别的语音；2) 特征提取：利用预训练的语音基础模型提取语音嵌入，并计算抖动、闪烁和HNR等低层声学特征；3) 特征融合：将SFM嵌入和低层特征进行拼接或加权融合；4) 语音质量评估网络：使用深度神经网络（如带有注意力机制的循环神经网络或Transformer）对融合后的特征进行处理，预测CAPE-V和GRBAS等语音质量指标。

关键创新：论文的关键创新在于将自监督学习的语音基础模型（SFM）引入到病理嗓音评估中，并将其与传统的低层声学特征相结合。这种结合方式能够充分利用SFM的强大表征能力和低层特征的细节信息，从而提高评估的准确性和鲁棒性。与现有方法相比，VOQANet+无需人工设计的特征工程，能够自动学习语音质量的评估标准。

关键设计：VOQANet+的关键设计包括：1) 使用预训练的语音基础模型（如Wav2Vec 2.0、HuBERT等）提取语音嵌入；2) 选择合适的低层声学特征（如抖动、闪烁、HNR等），并进行归一化处理；3) 设计有效的特征融合策略，如拼接、加权平均等；4) 构建合适的深度学习模型，如带有注意力机制的LSTM或Transformer，用于语音质量评估；5) 使用均方根误差（RMSE）和Pearson相关系数等指标评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VOQANet+在CAPE-V和GRBAS维度上的RMSE和Pearson相关系数方面均优于基线模型，尤其是在句子级别评估中表现更佳。VOQANet+在噪声环境下也表现出更强的鲁棒性，证明了结合SFM嵌入和低层特征的有效性。具体性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于远程医疗、语音治疗和语音疾病的早期诊断。通过客观、准确的语音质量评估，医生可以远程监测患者的病情变化，语音治疗师可以评估治疗效果，从而提高医疗效率和患者的生活质量。此外，该技术还可用于开发智能语音助手，帮助用户改善发音和语音表达。

📄 摘要（原文）

Perceptual voice quality assessment plays a vital role in diagnosing and monitoring voice disorders. Traditional methods, such as the Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V) and the Grade, Roughness, Breathiness, Asthenia, and Strain (GRBAS) scales, rely on expert raters and are prone to inter-rater variability, emphasizing the need for objective solutions. This study introduces the Voice Quality Assessment Network (VOQANet), a deep learning framework that employs an attention mechanism and Speech Foundation Model (SFM) embeddings to extract high-level features. To further enhance performance, we propose VOQANet+, which integrates self-supervised SFM embeddings with low-level acoustic descriptors-namely jitter, shimmer, and harmonics-to-noise ratio (HNR). Unlike previous approaches that focus solely on vowel-based phonation (PVQD-A), our models are evaluated on both vowel-level and sentence-level speech (PVQD-S) to assess generalizability. Experimental results demonstrate that sentence-based inputs yield higher accuracy, particularly at the patient level. Overall, VOQANet consistently outperforms baseline models in terms of root mean squared error (RMSE) and Pearson correlation coefficient across CAPE-V and GRBAS dimensions, with VOQANet+ achieving even greater performance gains. Additionally, VOQANet+ maintains consistent performance under noisy conditions, suggesting enhanced robustness for real-world and telehealth applications. This work highlights the value of combining SFM embeddings with low-level features for accurate and robust pathological voice assessment.

Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理