Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum

作者: Morteza Rohanian, Roya M. Hüppi, Farhad Nooralahzadeh, Noemi Dannecker, Yves Pauli, Werner Surbeck, Iris Sommer, Wolfram Hinzen, Nicolas Langer, Michael Krauthammer, Philipp Homan

分类: cs.CL

发布日期: 2025-02-25

💡 一句话要点

提出一种不确定性感知的多模态语音分析模型，用于精神病谱系症状评估。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态语音分析 不确定性建模 精神病谱系 症状预测 声学特征 语言特征 早期检测

📋 核心要点

现有语音分析方法难以有效处理精神病谱系中语音模式的内在变异性和不确定性，影响诊断精度。
该论文提出一种不确定性感知的多模态模型，通过量化声学和语言特征的不确定性来提升预测性能。
实验结果表明，该模型在预测症状严重程度方面表现出色，F1值达到83%，并降低了RMSE。

📝 摘要（中文）

捕捉精神病谱系中细微的语音障碍极具挑战，因为语音模式本身就存在变异性。这种变异性反映了个体差异以及临床和非临床人群中症状的波动性。考虑语音数据中的不确定性对于预测症状严重程度和提高诊断精度至关重要。精神病的语音障碍也出现在非临床个体中。本文开发了一种不确定性感知模型，该模型集成了声学和语言特征，以预测症状严重程度和精神病相关特征。量化特定模态中的不确定性使模型能够解决语音变异性问题，从而提高预测准确性。我们分析了来自114名参与者的语音数据，包括32名早期精神病患者和82名具有低或高分裂型人格者，这些数据通过结构化访谈、半结构化自传任务和德语叙事驱动的互动收集。该模型提高了预测准确性，降低了RMSE，并实现了83%的F1分数，ECE = 4.5e-2，表明在不同的互动环境中具有强大的性能。不确定性估计通过识别语音标记（如音高变异性、流畅性中断和频谱不稳定性）的可靠性差异，提高了模型的可解释性。该模型动态调整任务结构，在结构化环境中更多地加权声学特征，在非结构化环境中更多地加权语言特征。这种方法加强了精神病谱系研究中的早期检测、个性化评估和临床决策。

🔬 方法详解

问题定义：现有语音分析方法在精神病谱系研究中，难以有效处理语音数据中固有的变异性和不确定性。这种变异性源于个体差异、症状波动以及不同交互环境的影响，导致模型预测精度下降，难以准确评估症状严重程度和进行早期诊断。

核心思路：论文的核心思路是通过引入不确定性建模，使模型能够感知并适应语音数据中的变异性。具体而言，模型通过量化声学和语言特征的不确定性，动态调整不同模态的权重，从而提高预测的鲁棒性和准确性。这种方法允许模型在数据质量较低或存在噪声的情况下，依然能够做出可靠的判断。

技术框架：该模型采用多模态融合框架，整合了声学和语言特征。整体流程包括：1) 特征提取：从语音数据中提取声学特征（如音高、频谱）和语言特征（如流畅性、词汇选择）。2) 不确定性估计：对每个模态的特征进行不确定性估计，例如通过变分推断或dropout等方法。3) 特征融合：根据不确定性权重，动态融合声学和语言特征。4) 症状预测：使用融合后的特征预测症状严重程度或精神病相关特征。

关键创新：该论文的关键创新在于引入了不确定性建模到多模态语音分析中。传统方法通常忽略语音数据中的不确定性，导致模型对噪声和变异性敏感。通过量化每个模态的不确定性，模型能够动态调整不同模态的权重，从而提高预测的鲁棒性和准确性。此外，该模型还能够识别不同语音标记的可靠性差异，提高模型的可解释性。

关键设计：模型使用RMSE作为回归任务的损失函数，F1-score和ECE评估分类性能。在特征融合阶段，使用注意力机制或门控机制，根据不确定性权重动态调整不同模态的贡献。具体参数设置和网络结构的选择取决于具体的声学和语言特征以及数据集的特点，论文中可能未详细描述具体参数，需要参考相关文献。

🖼️ 关键图片

📊 实验亮点

该模型在包含114名参与者的数据集上进行了验证，包括早期精神病患者和具有分裂型人格者。实验结果表明，该模型提高了预测准确性，降低了RMSE，并实现了83%的F1分数，ECE = 4.5e-2。此外，不确定性估计提高了模型的可解释性，能够识别不同语音标记的可靠性差异，并在不同交互环境中动态调整声学和语言特征的权重。

🎯 应用场景

该研究成果可应用于精神病谱系疾病的早期检测、个性化评估和临床决策支持。通过分析患者的语音数据，可以客观评估症状严重程度，辅助医生进行诊断和治疗方案制定。此外，该模型还可用于监测治疗效果，及时调整治疗方案，提高患者的康复率。未来，该技术有望推广到其他精神疾病的语音分析中。

📄 摘要（原文）

Capturing subtle speech disruptions across the psychosis spectrum is challenging because of the inherent variability in speech patterns. This variability reflects individual differences and the fluctuating nature of symptoms in both clinical and non-clinical populations. Accounting for uncertainty in speech data is essential for predicting symptom severity and improving diagnostic precision. Speech disruptions characteristic of psychosis appear across the spectrum, including in non-clinical individuals. We develop an uncertainty-aware model integrating acoustic and linguistic features to predict symptom severity and psychosis-related traits. Quantifying uncertainty in specific modalities allows the model to address speech variability, improving prediction accuracy. We analyzed speech data from 114 participants, including 32 individuals with early psychosis and 82 with low or high schizotypy, collected through structured interviews, semi-structured autobiographical tasks, and narrative-driven interactions in German. The model improved prediction accuracy, reducing RMSE and achieving an F1-score of 83% with ECE = 4.5e-2, showing robust performance across different interaction contexts. Uncertainty estimation improved model interpretability by identifying reliability differences in speech markers such as pitch variability, fluency disruptions, and spectral instability. The model dynamically adjusted to task structures, weighting acoustic features more in structured settings and linguistic features in unstructured contexts. This approach strengthens early detection, personalized assessment, and clinical decision-making in psychosis-spectrum research.

Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理