Mixture of Experts for Recognizing Depression from Interview and Reading Tasks

📄 arXiv: 2502.20213v1 📥 PDF

作者: Loukas Ilias, Dimitris Askounis

分类: cs.LG, cs.CY

发布日期: 2025-02-27


💡 一句话要点

提出基于专家混合模型的抑郁症语音识别方法,融合访谈和阅读任务语音。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 抑郁症识别 语音分析 专家混合模型 多模态融合 深度学习 自发语音 阅读语音

📋 核心要点

  1. 现有抑郁症语音识别方法主要依赖自发语音,忽略了阅读语音信息,且依赖高质量的语音转录文本。
  2. 该论文提出一种基于专家混合模型(MoE)的深度学习框架,融合自发语音(访谈)和阅读语音信息,提升识别性能。
  3. 实验结果表明,该方法在Androids语料库上取得了87.00%的准确率和86.66%的F1分数,验证了方法的有效性。

📝 摘要(中文)

抑郁症是一种精神障碍,可能导致多种症状,包括心理、生理和社会症状。语音已被证明是早期识别抑郁症的客观标志。因此,许多研究致力于通过语音识别抑郁症。然而,现有方法依赖于自发语音,忽略了通过阅读语音获得的信息,使用难以获得(手动)或具有高词错误率(自动)的文本记录,并且不关注输入条件计算方法。为了解决这些限制,本研究首次在抑郁症识别任务中获取自发语音和阅读语音的表征,利用多模态融合方法,并在单个深度神经网络中采用专家混合(MoE)模型。具体来说,我们使用对应于访谈和阅读任务的音频文件,并将每个音频文件转换为log-Mel频谱图、delta和delta-delta。接下来,两个任务的图像表征通过共享的AlexNet模型。AlexNet模型的输出作为多模态融合方法的输入。得到的向量通过一个MoE模块。在本研究中,我们采用了MoE的三种变体,即基于稀疏门控的MoE和基于分解的多线性MoE。研究结果表明,我们提出的方法在Androids语料库上分别产生了87.00%的准确率和86.66%的F1分数。

🔬 方法详解

问题定义:现有抑郁症语音识别方法主要依赖于自发语音,忽略了阅读语音中包含的信息。此外,许多方法依赖于语音转录文本,而获取高质量的转录文本成本高昂,自动语音识别又存在较高的错误率。因此,如何有效利用多种语音信息,并在不依赖高质量转录文本的情况下提高抑郁症识别的准确率是一个挑战。

核心思路:该论文的核心思路是融合自发语音(访谈)和阅读语音两种模态的信息,并利用专家混合模型(MoE)来学习不同模态的特征表示。通过MoE模型,可以根据输入语音的特征,动态地选择不同的专家网络进行处理,从而更好地适应不同类型的语音数据。

技术框架:整体框架包括以下几个主要阶段:1) 音频预处理:将访谈和阅读任务的音频文件转换为log-Mel频谱图、delta和delta-delta特征。2) 特征提取:使用共享的AlexNet模型提取两种语音任务的图像表征。3) 多模态融合:将AlexNet模型的输出进行多模态融合,得到融合后的特征向量。4) 专家混合模型(MoE):将融合后的特征向量输入到MoE模块,进行最终的分类。

关键创新:该论文的关键创新在于:1) 首次在抑郁症语音识别任务中同时利用自发语音和阅读语音的信息。2) 采用专家混合模型(MoE)来动态地学习不同模态的特征表示,提高了模型的适应性和泛化能力。3) 避免了对高质量语音转录文本的依赖。

关键设计:在MoE模块中,论文采用了三种变体:稀疏门控MoE和基于分解的多线性MoE。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。AlexNet模型使用了预训练的权重,并在抑郁症识别任务上进行了微调。多模态融合方法的具体实现方式也未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该论文在Androids语料库上进行了实验,结果表明,提出的方法取得了显著的性能提升,准确率达到87.00%,F1分数达到86.66%。这些结果表明,融合自发语音和阅读语音信息,并利用专家混合模型(MoE)可以有效地提高抑郁症语音识别的准确率。

🎯 应用场景

该研究成果可应用于心理健康评估、远程医疗和智能辅助诊断等领域。通过分析患者的语音特征,可以辅助医生进行抑郁症的早期筛查和诊断,提高诊断效率和准确性。此外,该技术还可以应用于开发智能心理健康助手,为患者提供个性化的心理支持和干预。

📄 摘要(原文)

Depression is a mental disorder and can cause a variety of symptoms, including psychological, physical, and social. Speech has been proved an objective marker for the early recognition of depression. For this reason, many studies have been developed aiming to recognize depression through speech. However, existing methods rely on the usage of only the spontaneous speech neglecting information obtained via read speech, use transcripts which are often difficult to obtain (manual) or come with high word-error rates (automatic), and do not focus on input-conditional computation methods. To resolve these limitations, this is the first study in depression recognition task obtaining representations of both spontaneous and read speech, utilizing multimodal fusion methods, and employing Mixture of Experts (MoE) models in a single deep neural network. Specifically, we use audio files corresponding to both interview and reading tasks and convert each audio file into log-Mel spectrogram, delta, and delta-delta. Next, the image representations of the two tasks pass through shared AlexNet models. The outputs of the AlexNet models are given as input to a multimodal fusion method. The resulting vector is passed through a MoE module. In this study, we employ three variants of MoE, namely sparsely-gated MoE and multilinear MoE based on factorization. Findings suggest that our proposed approach yields an Accuracy and F1-score of 87.00% and 86.66% respectively on the Androids corpus.